caricato da common.user17721

Docimologia: Voti a Scuola e Valutazione degli Apprendimenti

METTERE I VOTI A SCUOLA
Introduzione alla docimologia Di Guido Benvenuto
INTRODUZIONE
Finalità dei voti:
•
Fornire agli studenti un feedback sui progressi;
•
Misurare gli apprendimenti;
•
Fornire indicatori di efficacia dell’apprendimento;
•
Regolare e adeguare i processi didattici.
Quando parliamo di voti intendiamo almeno due sistemi di valutazione: il voto come valore
numerico al termine di una singola prova o rilevazione, e il voto come sintesi e raccolta di più
valutazioni. Entrambi richiamano il significato di voto come giudizio relativo. E se un voto di
profitto è una valutazione, per un giudizio di merito espresso in relazione al grado di preparazione e
di rendimento di uno studente (Battaglia 1), si tratta di intendersi sul tipo di scala da usare nella
comparazione.
CAPITOLO 1
LA FORMAZIONE DI UNA COMPETENZA DOCIMOLOGICA
Un quadro d’insieme
La docimologia è una disciplina che è nata per poter studiare su basi scientifiche i criteri della
valutazione scolastica. Si parte da una critica degli esami. Poi si comincia a riflettere non soltanto
sull’esame e a ragionare in termini di sistemi educativi. L’accento si sposta dagli alunni che
apprendono agli insegnanti. “non si educa mai direttamente ma indirettamente per mezzo
dell’ambiente”.
1. Quali strumenti utilizzare per la verifica degli apprendimenti e negli esami?
2. Come attribuire i voti o i giudizi e come registrarli?
3. Come distribuire le prove di verifica nell’arco della didattica annuale?
4. In che modo comunicare i risultati delle prove agli studenti e all’esterno della classe?
Ogni docente tutte le volte che si trova a mettere voti e a valutare, dovrebbe controllare 4
1
Grande dizionario della lingua italiana, UTET, 1991-2002.
dimensioni di riferimento: (tab. 1.1. p. 22 libro)
1. Funzioni della valutazione : Perche sto valutando Quali gli obiettivi?
2. Tempi didattici: Quando sviluppare le forme di verifica? Ingresso, itinere o finale?
3. Forme/strumenti: Quali stimoli e tipologie di prove adoperare? Strutturate, semi-strutturate,
aperte? Come raccogliere nel tempo le testimonianze di prove?
4. Livelli di misura: Quale precisione nella misurazione? Scale nominali, ordinali, a intervallo?
Ogni qualvolta si utilizzano le diverse modalità di verifica (punto 3) esse si scelgono in relazione
allo scopo che si vuole raggiungere (punto 1) e del tempo della didattica nel quale ci si trova (punto
2).
La competenza docimologica dei docenti
Il mettere i voti diventa decisamente il saper adoperare diversi sistemi di rilevazione e di
misurazione in funzione dei diversi livelli della valutazione scolastica. Un docente competente dal
punto di vista docimologico dovrà disporre di adeguati strumenti, teorici e pratici, per affrontare e
gestire le diverse questioni. La messa a punto di una competenza docimologica per i docenti, da un
punto di vista sia individuale sia collegiale, prevede un bagaglio esperienziale legato a:
- Distinzione, ma stretta correlazione, tra l’uso di strumenti di verifica e le funzioni della
valutazione;
- Raccolta differenziata delle informazioni necessarie alla valutazione;
- Conoscenza e applicazione delle principali tecniche di costruzione di test;
- Diffusione e utilizzazione degli strumenti alternativi al testing;
- Individuazione e controllo della validità e affidabilità delle diverse misure degli apprendimenti
scolastici;
- Attribuzione dei punteggi (voti), formulazione di giudizi (valutazioni analitiche e sintetiche) e
loro restituzione e comunicazione;
- Riflessione sulla problematicità del mettere i voti a scuola e nei diversi contesti formativi, in
termini di equità.
Un voto, un giudizio, hanno senso e significato solo se contribuiscono a chiarire dal punto di vista
valutativo la situazione degli apprendimenti conseguiti e a indicare le modalità per migliorarla.
Tra le condizioni necessarie per incrementare e diffondere la cultura della valutazione e la
sensibilità pedagogica vi sono:
a. Il miglioramento delle competenze dei docenti nell’allestire e gestire le forme di verifica e di
valutazione funzionali e coerenti con il sistema e contesto nel quale si trovano ad operare;
b. Il sostegno da parte di centri di ricerca nella produzione di materiali utili alla valutazione
nelle sue diverse funzioni.
La competenza docimologica di un docente deve essere sapientemente dosata e calibrata a seconda
del contesto complessivo nel quale si trova a operare. Il saper adoperare le tecniche misurative
adattandole al contesto è frutto dell’esperienza che ognuno conduce individualmente ma che va
sottoposta a riflessione e confronto collegiale. Decidere se è meglio procedere con una prova
strutturata o con una interrogazione oppure adottare un sistema di misura più semplificato di un
altro sono esempi di situazioni problematiche da risolvere coniugando la padronanza delle diverse
tecniche con atteggiamenti e comportanti che ne rafforzino l’intento. Spesso è proprio in assenza di
tecniche comuni, e di metodologie condivise, che la soggettività prevale a scapito dell’equità e della
precisione nella valutazione e le esperienze personali rischiano spesso di non essere valorizzate
proprio in mancanza di regole condivise e comuni.
CAPITOLO 2
NASCITA E SVILUPPI DELLA DOCIMOLOGIA
Etimologia e definizioni
L’etimologia del termine docimologia, proposto nei primi anni ’30 da Henri Pieron, è rintracciabile
in alcuni vocaboli greci che rimandano al contesto dell’esaminare inteso in senso ampio. Da un lato
abbiamo infatti il significato di prova o di esame, dall’altro, con il termine logos (discorso, ma
anche riflessione scientifica) si aggiunge lo spessore di studio e contesto di riflessione
sull’esaminare.
L’accezione iniziale per docimologia è quindi quella di studio destinato alla critica e al
miglioramento delle votazioni scolastiche. Nei primi studi il termine aveva, a ben vedere, un
carattere negativo criticando i sistemi di votazione e dimostrando la mancanza di fedeltà e di
validità agli esami. Nel tempo il campo semantico si è allargato, includendo l’analisi dei
comportamenti di chi esamina, prevalentemente l’insegnante, e di chi è esaminato, sostanzialmente
lo studente. Nel 1971 De Landsheere definisce la docimologia scienza che ha per oggetto lo studio
sistematico degli esami, in particolare dei sistemi di votazione e del comportamento degli
esaminatori e degli esaminati.
Giovannini (1995), citando de Landsheere, precisa che la docimologia dovrebbe concernere anche
gli insegnanti, gli istituti, il sistema scolastico.
De Ketele (1982) tra i diversi sensi da riconoscere al termine docimologie indica la disciplina che
ha per oggetto lo studio dei sistemi di valutazione in educazione.
La docimologia, quindi, da un iniziale carattere di critica dei voti assume una valenza sempre più
costruttiva, in quanto riflessione o risposta scientifica per contrastare la personalizzazione nella
valutazione scolastica.
Dai primi studi ai recenti campi di interesse
L’esigenza di studiare e correggere alcune disfunzioni nelle valutazioni di esame nel ‘900 nasce dai
sensibili cambiamenti nei sistemi scolastici che si svilupparono in Europa ad inizio del secolo. Le
tematiche docimologiche sono strettamente collegate all’aumento della richiesta di formazione, al
crescere della scuola di massa che, come vedremo, dagli anni ’60 in poi (in Italia) incomincia a
richiedere forme di valutazione più oggettive e diverse modalità di accertamento del rendimento
scolastico.
La problematica della valutazione in contesti di esame era talmente avvertita in ambito psicologico
e pedagogico da essere presente in due delle 15 tesi della scuola attiva che Claparede enuncio al
Congresso di igiene mentale nel giugno del 1922 a Parigi. Egli sosteneva che gli esami avrebbero
dovuto essere soppressi, e sostituiti da una valutazione data in base ai lavori individuali fatti durante
l’anno, oppure per mezzo di studi adeguati. Per di più, la psicologia sperimentale è in grado di
fornire alla pedagogia pratica dei metodi adatti al controllo del valore dei metodi didattici e del
rendimento scolastico.
Il dibattito sull’uso o rifiuto dei test a scuola nasce proprio dalla consapevolezza che molte verifiche
scolastiche non presentano sufficiente rispetto della validità e affidabilità nell’esaminare.
Nel 1922, Pieron compi la prima ricerca docimologica francese sugli esami di licenza elementare.
Studio la correlazione tra i risultati a 6 test per misurare le varie funzioni e le valutazioni assegnate
a 117 studenti nelle loro prove di esame. Le correlazioni tra i test e le valutazioni risultarono basse.
Successivamente Laugier e Weinberg intrapresero una ricerca sulla fedeltà delle valutazioni per
studiare l’affidabilità in caso di ripetizioni dell’esame o di correzioni. I risultati raccolti da Pieron
evidenziarono le divergenze di giudizio esistenti tra i diversi correttori e le differenze nella
valutazione. Cio dimostra che quando correggiamo si presentano diversi elementi di distorsione:
ciascun valutatore è sensibile ad alcune caratteristiche delle prove, mentre tende a trascurarne altre.
Altri studi furono sviluppati negli anni a seguire, e non solo in Francia, a evidenziare l’interesse
generale per la problematica sollevata e negli anni 70 si inizio a riflettere sulle tematiche
docimologiche. Nel 1971 De Landsheere con un celebre testo riprese il termine Docimologia per
indicare la scienza che ha per oggetto lo studio sistematico degli esami, in particolare dei sistemi di
votazione e del comportamento degli esaminatori e degli esaminati. Il suo obiettivo era non di
eliminare ma di contenere la soggettività presente nella valutazione esami ovvero era necessario
dotare i docenti degli strumenti che affiancassero l’osservazione continua.
Bacher invece cerco di perfezionare gli esami esterni tradizionali e utilizzo prove normalizzate.
Entrambi gli studiosi vollero migliorare le tecniche di accertamento sia per gli esami finali che per
le prove di verifica e mettere a punto sistemi che permettessero la comparazione sempre più ampia,
sia tra valutazioni di diversi docenti, sia tra classi e scuole.
Dagli anni ’80 in poi accanto a studi per sviluppare le migliori pratiche nella costruzione di prove
oggettive, da utilizzare in classe o per indagini più ampie, gli interventi sulla valutazione in campo
scolastico si sono concentrati sulla valutazione come elemento funzionale al processo stesso
dell’apprendimento.
Il termine edumetria (De Ketele: scienza della misura nel campo delle scienze dell’educazione)
sembra raccogliere alcuni consensi perche contestualizza gli aspetti metrologici (metric), le
misurazioni (assessment) in campo educativo e amplia il ventaglio delle forme di verifica con
strumenti alternativi (alternative assessment).
L’attenzione alla docimologia in Italia
Per quanto riguarda l’Italia gli studi docimologici prendono l’avvio alla fine degli anni ’50.
Sono Visalberghi e Calonghi i primi ad aprire il dibattito e a sensibilizzare sulle tematiche
docimologiche. Nel ’54 Calonghi pubblica su Orientamenti Pedagogici‚ “L’insufficienza e
soggettivita delle valutazioni scolastiche degli insegnanti”; nel ‘55 Visalberghi con “Misurazione e
valutazione nel processo educativo”, apre un dibattito sulle funzioni e utilizzazioni del testing a
scuola. Nel 1958, in occasione del Congresso internazionale di psicologia applicata, si tiene poi il
Simposio di docimologia. L’ampiezza della bibliografia sulle tematiche docimologiche negli anni
’50 dimostra il nascente interesse per la problematica. I primi studi e ricerche si rivolgono
soprattutto all’individuazione di metodologie e interventi per la riduzione della soggettività nella
valutazione scolastica e alla riflessione sui voti.
Il testo di Visalberghi (1955) è centrale per questo ampio dibattito. In esso, infatti, si discute la
distinzione tra i termini “misurazione” e “valutazione”, a tutt’oggi essenziale per distinguere le fasi
e le funzioni nei diversi momenti di verifica e valutazione in contesti formativi. L’invito non è a
schierarsi per misure quantitative o forme di valutazioni più qualitative, ma a distinguere tra fasi che
permettono di quantificare maggiormente (la misurazione) e fasi che precedono o seguono la
quantificazione e/o la raccolta mirata di informazioni. In questi casi si parla di atti valutativi
(valutazione), cioè atti che richiedono un giudizio. Che tra i due termini, misurazione e valutazione,
ci sia una stretta interdipendenza è fuor di dubbio: «nonche sopprimere la valutazione, la
misurazione nasce dalla valutazione e nella valutazione confluisce». 2 La distinzione tra misurazione
e valutazione va pero mantenuta.
Nella preparazione di test gli elementi qualitativi sono innegabili, ma anche quelli quantitativi. Le
fasi di misurazione e di valutazione sono fasi di uno stesso processo che si conclude con la
formulazione di giudizi o con l’attribuzione di voti. «La valutazione non interviene soltanto dopo
l’impiego dei tests, interviene anche prima, cioè nella fase del loro apprestamento».
Visalberghi ricorda che il termine misura ha due significati principali:
1. Operazione di conteggio o confronto;
2. Abito di equilibrio e discrezione.
La riflessione aperta da Visalberghi spinge da un lato a migliorare le competenze nella costruzione e
uso di test, nel senso ovviamente di test ben fatti, intelligenti e capaci di rilevare i processi di
apprendimento, ma dall’altro a costruire giudizi più obiettivi possibili.
Negli anni '60-'70, studi di Calonghi e successivamente di Gattullo (1968) manifestano l’ampliarsi
del dibattito e l’approfondimento dei temi specifici.
2
Visalberghi, 1955
Calonghi elabora e valida prove di sussidio didattico nelle differenti materie scolastiche,
distinguendo tra prove diagnostiche, che ricercano le cause delle difficoltà negli apprendimenti e
prove oggettive che consentono una valutazione obiettiva del profitto.
Gattullo (1968) definisce le tre fasi del controllo scolastico:
1. Scelta degli oggetti da sottoporre ad accertamento (che possono coincidere con gli
obiettivi);
2. Operazioni da compiere per accertare il raggiungimento (o il grado di presenza) degli
obiettivi prescelti;
3. Giudizio da dare sui risultati dell’accertamento operato.
Dalla docimologia come problema scolastico per i singoli docenti e studenti si inizia a discutere
della necessità di servizi nazionali: Non esiste un servizio regolare di docimologia in Italia, e quindi
tutta la nostra poca sperimentazione riesce alquanto approssimata. Andreani Dentici (1969) allarga
il quadro toccando le problematiche della misurazione dell’abilità mentale e del rendimento
scolastico e offrendo sia una critica alle prove tradizionali, sia metodologie e strategie alternative
per la misurazione di specifiche abilità nella scuola.
La critica alle scale di misurazione e di giudizio è fatta anche da Remondino (1964) che
confronta i sistemi di espressione quantitativa e qualitativa della valutazione scolastica.
Dagli anni '80 con l’attuazione dell’autonomia scolastica si impone l’AUTOVALUTAZIONE
(valutazione sulla propria efficacia per poter migliorare in qualsiasi campo, non solo educativo).
In particolare la dimensione di autovalutazione d’istituto, da intendersi come giudizio assai
articolato che la scuola esprime sulla congruenza tra le scelte progettuali, organizzative e didattiche
compiute, nonche delle risorse in senso lato impiegate, e gli esiti processuali e/o intermedi finali –
rispetto all’arco di tempo preso a riferimento – di fatto conseguiti.
Inoltre l’esigenza di valutare la qualità del sistema scolastico a livello europeo sta spingendo i vari
Governi a diffondere un livello di valutazione nazionale, integrando diversi approcci per offrire e
garantire diagnosi affidabili ai decisori politici, alle amministrazioni e alle scuole.
In Italia si è sviluppata una serie di indagini comparative nell’ambito del CEDE (Centro Europeo
dell’educazione) e dal SNQI (Sistema nazionale per la qualità dell’istruzione) e dall’INVALSI
(istituto nazionale per la valutazione del sistema dell’istruzione).
Nell’ambito dell’INVALSI possiamo citare le seguenti indagini e iniziative:
1. L’indagine sulla produzione scritta (IEA-IPS 1980-85):
condotta in 14 paesi ha permesso il confronto tra i livelli di profitto nella scrittura raggiunti
da studenti di anno conclusivo di ciascun ciclo scolastico.
Dopo aver individuato i tratti da osservare è stata costruita una griglia per la valutazione
secondo due approcci: “valutazione globale” e “valutazione dei tratti principali”.
2. Il Piano di monitoraggio degli esami di Stato (Dal 1998-99):
in cui rilevanti sono stati questi studi:
◦ studio e riflessione sulla fase di colloquio nell’esame di Stato;
◦ analisi campionaria per verificare l’impatto di nuove tracce, livelli emergenti e criteri
di valutazione adottati dalle commissioni; (per le nuove prove scritte)
◦ studio sperimentale sull’assegnazione dei punteggi nelle prove scritte dell’Esame di
Stato (Bolletta, 2001) in cui si affronta la questione dell’affidabilità dei punteggi
assegnati. Attuato un piano sperimentale per:
a) quantificare l’errore di misura nell'assegnazione dei punteggi negli scritti;
b) determinare i fattori che influenzano l’ampiezza di tale errore;
c) individuare strategie di miglioramento della precisione delle valutazioni
compatibili con le modalità di esecuzione degli esami.
◦ (fase di) allestimento e monitoraggio di tutte le terze prove3;
◦ analisi delle relazioni finali dei presidenti di commissione (che offrono info
quantitative su esiti degli esami e sulle «modalità di effettuazione delle votazioni per
l’assegnazione dei punteggi» (come abbinare voti a punteggi)).
3. L’archivio docimologico per l’autovalutazione delle scuole (ADAS):
progettato per contenere materiale valutativo. Il materiale corrisponde ai requisiti
metodologici della docimologia4. L'archivio contiene quesiti slegati e prove oggettive.
L'ADAS è un sistema di gestione complesso che comprende macroattività indipendenti ma
coordinate fra loro, che interagiscono sulle informazioni (presenti in archivio) riguardanti il
materiale valutativo.
Distorsioni valutative con le prove tradizionali
I principali nemici della docimologia sono senza dubbio le distorsioni valutative a scuola,
soprattutto riguardo alle prove non strutturate (ad esempio elaborati scritti o interrogazioni). Nelle
prove strutturate invece si è in presenza di misurazioni più oggettive.
Principali effetti indesiderati o distorsioni valutative:
Effetto di alone: si presenta tutte le volte che alcuni elementi della prestazione, pur poco
pertinenti rispetto alla prova, risultano determinanti nel giudizio. Per esempio caratteristiche
3
4
Raccolta di tutte le terze prove, Archivio elettronico terze prove - ATP
Scienza che ha per oggetto lo sviluppo della ricerca e la messa a punto di tecniche valutative.
dello studente (es. studente chiassoso), l’abbigliamento, lo sguardo, i gesti, la grafia.
Effetto di contagio: (conoscenza della valutazione degli altri) questa conoscenza della
valutazione per esempio di un collega che riteniamo affidabile puo influenzare il nostro
giudizio (es. nei consigli di classe). Estensione e generalizzazione di giudizio motivata da un
giudizio altrui.
Effetto di contraccolpo: si realizza quando chi insegna puo modificare la propria didattica in
funzione degli esami finali. In questi casi aumenta la probabilità che alcune forme di
apprendimento siano trascurate o sovrastimate durante l’anno scolastico in relazione alla
presenza o assenza delle prove finali. La nuova versione dell'esame di Stato è stata introdotta
per evitare questo effetto. (mah...)
Effetto della distribuzione forzata dei risultati: (assimilazione alla curva normale) consiste
nell’accettazione, non sempre implicita da parte di molti docenti, dell’ipotesi secondo cui gli
esiti della formazione debbano rispecchiare l’andamento della curva normale di molti
fenomeni naturali, o degli errori accidentali delle misurazioni, ovvero non possano che
distribuirsi secondo la famosa curva a campana di Gauss (a fine anno 20% di prestazioni
basse, 60% medie, 20% prestazioni alte). Molti prof si omologano a questa concezione anche
se nei fatti riscontrano il contrario, cioè una distribuzione casuale. Infatti, se la distribuzione
non è normale si sarebbe di fronte ad azioni didattiche e formative praticamente inefficaci e
l’errore o distorsione consisterebbe nell’assimilare la distribuzione di fenomeni “formativi”
con quelli che hanno distribuzione casuale. Insomma, l’insegnante non agisce bene
didatticamente, riscontra risultati poco soddisfacenti ma invece di intervenire si omologa
forzatamente alla distribuzione normale dei risultati.
Effetto Pigmalione: è l’effetto edipico della profezia che si autoverifica. Più che una
distorsione è un effetto positivo. Ovvero l’adeguamento dei soggetti alle aspettative. In una
scuola di Chicago5 è stato dimostrato che adottare atteggiamenti più facilitanti e comunicare in
modo esplicito le proprie aspettative positive motiva gli studenti, contribuendo al loro
successo. È il contrario della stereotipia.
Effetto di stereotipia: (pregiudizio o forte incidenza di precedenti giudizi) consiste nella
scarsa alterabilità dell'opinione che ci si fa di un allievo, dal punto di vista cognitivo o non
cognitivo, cosi che ogni giudizio potrebbe risentire positivamente o negativamente della
generalizzazione dell'opinione originaria. Ci si irrigidisce su una fissità valutativa e questo
accade soprattutto quando il valutatore dispone di poco tempo per la valutazione (es. è
5
Rosenthal e Jacobson, 1968.
sovraccarico di compiti da valutare).
Effetto di contrasto: Si puo verificare soprattutto durante le interrogazioni orali, ma anche con
la correzione dei compiti scritti a stimolo e risposta aperti. Consiste, come l’effetto di alone, in
una sovrastima o sottostima di una determinata prova, ma questa volta rispetto a standard di
prestazioni ideali del docente, o, più frequentemente, rispetto a precedenti, contestuali o
immediatamente successive prove di altri allievi. Questo effetto puo essere contenuto
raffrontando le prestazioni con le competenze oggetto di valutazione. Nella correzione, si
possono rianalizzare le prove a parità di votazione e verificare la presenza o assenza di
effettivi scarti, procedendo a una votazione più calibrata.
Soggettivita, oggettivita e intersoggettivita
Una delle finalità degli studi docimologici è l’essere consapevoli delle diverse distorsioni e
limitarne gli effetti. 3 dimensioni entrano a fare parte del processo valutativo degli apprendimenti
scolastici:
Dimensione soggettiva: riguarda una valutazione poco oggettiva ma inficiata dall’individuo
più che dal docente. Praticamente la valutazione dipende dalla persona che l’ha compiuta;
Oggettiva: cerca di utilizzare criteri costanti e uniformi. Le verifiche oggettive sono di
natura strutturata, quesiti a risposta chiusa. Si prevede l’esecuzione di compiti uguali per
tutti. Oggettività di misurazione significa che la valutazione non dipende dalla persona che
l’ha compiuta. Le prove cosi strutturate possono chiamarsi prove strutturate di conoscenze o
test di profitto. Una volta stabiliti gli obiettivi dell’apprendimento l’insegnante è in grado di
fornire uno stimolo specifico, l’allievo da parte sua risponde fornendo una prestazione
altrettanto specifica;
Intersoggettiva: compare quando nell’attribuzione di voti diversi valutatori e correttori
discutono e condividono i criteri e le modalità in base alle quali procedere. Prevede un
accordo nell’uso di descrittori, criteri e modalità di rilevazione e misurazione.
CAPITOLO 3
FUNZIONI, FORME E TEMPI DELLE VERIFICHE
Per ragionare sul come mettere i voti è indispensabile affrontare preliminarmente il discorso della
loro funzione, e in generale delle diverse forme della valutazione scolastica. Alcune verifiche
condotte a scuola, più di natura informale, o condotte in itinere non portano sempre a una formale
attribuzione di punteggio, voto o giudizio. Altre invece, pensate appositamente, conducono a una
misurazione delle prestazioni e rimandano all’uso di diverse possibili scale di valori. Sono proprio
le funzioni della valutazione a esplicitare il rapporto tra le prove di verifica e i livelli di
misurazione. Le prove di verifica possono essere di diverso tipo e assolvere funzioni diverse, anche
a seconda dei tempi della didattica. Ma complessivamente si puo sostenere che le verifiche servono
fondamentalmente a rilevare e regolare i processi di apprendimento degli studenti.
Modelli che guidano la valutazione
La scelta di specifiche prove o forme di esame, l’individuazione di criteri comuni per la correzione
o valutazione dei risultati, l’utilizzazione di scale di misura comprensibili e condivisibili tra docenti
sono fortemente dipendenti dal tipo di valutazione che si sta adottando. Accanto alle esperienze e ai
modelli valutativi del docente vi sono pero altre dimensioni che concorrono all’attribuzione di voti e
nella rilevazione e nella regolazione dei processi di apprendimento:
a) Le competenze didattiche e metodologiche del docente
b) Il livello di informazione (agli studenti, genitori, alla scuola) che il voto si propone.
De Ketele (1993) ha costruito un quadro dei principali paradigmi che si sono sviluppati nella teoria
della valutazione, offrendo un utile inquadramento alla nostra riflessione.
Tra i diversi modelli si ricordano:
1. Dell’intuizione pragmatica (tradizionale/intuitivo): la valutazione è un atto sincretico,
strettamente legato alla persona del valutatore, colui che ha condotto l’apprendimento.
Questo assume le proprie responsabilità con coscienza professionale. I voti e i giudizi sono il
sistema che dispensa il valutatore dal dover giustificare i contenuti precisi delle prove e che
offre certe apparenze di obiettività.
2. Docimologico: è orientato essenzialmente verso la fedeltà o affidabilità delle valutazioni, e
delle sue espressioni in voti o misurazioni. Si è lasciato spazio all’edumetria, cioè una
scienza della misura nel campo delle scienze dell’educazione.
3. Sociologico: la valutazione assume un ruolo importante nel processo di riproduzione sociale
e contribuisce a mantenere o accentuare le ineguaglianza culturali.
4. Centrato sugli obiettivi/padronanza: la valutazione consiste esclusivamente nel confronto
tra una prestazione e degli obiettivi fissati (approccio Tyleriano). La valutazione avviene al
termine del processo di formazione per mettere in evidenza quali alunni dominano quali
obiettivi. Gli strumenti da utilizzare sono precostituiti e a seconda degli obiettivi si ricorrerà
a test o a osservazioni con criteri. Bloom (1956) amplia il modello di Tyler  modello
centrato sulla padronanza: punta sulla valutazione diagnostica, formativa e orientativa.
5. Formativo/differenziato: si deve a Scriven il termine di valutazione formativa, per
intendere la funzione di regolazione retroattiva nella valutazione. La valutazione formativa è
necessaria per progettare attività di recupero mirate, e interattiva per diagnosticare e
integrare le attività di insegnamento e apprendimento. (Questo modello riprendendo quello
sociologico, prospetta soluzioni in termini di insegnamento differenziato e di pedagogia
differenziata).
6. Centrato sulle decisioni e dell’integrazione: con il modello di Stufflebeam si dà centralità
alla valutazione del Contesto, degli Input, dei Processi e dei Prodotti (CIPP 6). Questo
modello non è centrato sugli obiettivi ma sulla decisione nella situazione. De Ketele ha
sviluppato la sua applicazione alla valutazione scolastica.
7. Centrato sul consumatore: Scriven riconosce un posto alla valutazione sommativa, da far
condurre a valutatori esterni, i quali, liberi da ogni obiettivo, assemblano le informazioni
conoscitive da strumenti variati e pronunciano giudizi di valore. Chi sono i consumatori? Il
pubblico a cui si rivolgono le persone formate e gli stessi soggetti della formazione;
8. Centrato sul cliente ( o modello della valutazione rispondente): gli studi alla base sono
quelli di Stake, più interessati ai programmi di formazione che alla pratica scolastica. Si
cerca di conciliare il pensiero di Stufflebeam con quello di Scriven 7, dando al valutatore a) il
ruolo di raccogliere le informazioni; b) analizzare le congruenze, c) fornire una
comprensione della situazione per migliorare il processo di formazione (valutazione
rispondente).
9. Economico: parte dal concetto di accountability (rendere conto) per studiare la variabilità
delle acquisizioni degli alunni, del peso delle caratteristiche socio-economiche e del peso
dell'istruzione. Si prospetta in termini di macrovalutazione, utile ai decisori politici e utilizza
strumenti di misurazione validi e affidabili.
6
7
Context, input, process, product.
Stufflebeam – > valutazione contesto (CIPP)
Scriven – > valutazione formativa e sommativa
10. Come processo di regolazione: secondo Allal, Cardinet e Perrenoud, ogni valutazione è
un mezzo di regolazione all’interno di un sistema di formazione.
È possibile sottolineare diverse questioni riguardanti la valutazione:
1. Per quel che riguarda le funzioni della valutazione: la valutazione a scuola serve a
esplicitare, a rendere evidente l’andamento della didattica e dell’istruzione. La raccolta degli
elementi informativi è comunque finalizzata al monitoraggio di quei processi, con
l’obiettivo di prendere decisioni per migliorarli. Ovviamente non tutto puo e deve rientrare
in un processo valutativo, altrimenti la valutazione da mezzo si trasforma in fine, perdendo
di vista le finalità educative e formative del contesto scolastico. Dunque la valutazione
scolastica è una fase/elemento intrinseco al processo didattico. È un processo di raccolta
intenzionale e pianificata di elementi/informazioni finalizzato ad esprimere un giudizio
(descrittivo, comparativo, di progresso, certificativo) sulla progressione degli apprendimenti
da parte di singoli o gruppi di allievi.
2. I l rapporto tra le diverse fasi della valutazione: ovvero in particolare i momenti della
rilevazione e misurazione rispetto a quelli del giudizio o valutazione complessiva. Con il
termine misurazione si fa riferimento a tutte quelle forme di rilevazione, di accertamento, di
verifica, che permettono di quantificare determinati elementi. Nel termine è implicito il
riferimento a una qualche unità di misura e quindi a un approccio quantitativo. Con il
termine valutazione, si intende il processo di sintesi che porta a dotare di valore gli atti
educativi. Nel termine quindi non si richiamano unità di misura ma si rimanda a veri e propri
giudizi. Dunque la valutazione è un giudizio di valore perche è basata sempre su un conflitto
di 2 cose: tra le cose come sono e come dovrebbero essere. Una delle cose che puo aiutare la
valutazione è la misurazione. Ebbene i due termini non si escludono: la misurazione nasce
dalla valutazione e nella valutazione confluisce (Visalberghi, 1955).
In sintesi definiamo:
Testing: forma strutturata e oggettiva di verifica;
Misurazione: modalità di accertamento con possibile quantificazione;
Valutazione: giudizio basato sui risultati di una o più misurazioni.
3. Una terza serie di questioni riguarda la caratteristica di flessibilita che hanno i diversi
strumenti di verifica rispetto alle funzioni valutative. Gli strumenti di verifica variano in
relazione alla funzione della valutazione. Per valutare con funzione certificativa potrebbe
essere utile far ricorso a prove strutturate (testing oggettivo/standardizzato) rispetto a forme
più libere dell’espressione quali il colloquio o la produzione orale.
Domenici (1993) sintetizza la questione della flessibilità nella scelta degli strumenti di
rilevazione, presentando la regola aurea in campo docimologico: «per ogni funzione e/o
obiettivo specifico della valutazione va impiegato uno strumento di verifica omologo o
congruente con quella funzione e/o con quell’obiettivo».
4. Un ultimo gruppo di considerazioni riguarda la centralita dei voti a scuola nei livelli
scolastici. L’uso e la centralità dei voti è in stretta relazione con la funzione sommativa e
certificativa. Si ricorre alla scala dei voti per rispondere alla funzione di verifica finale e di
accertamento conclusivo. L’attribuzione dei voti è un problema che tocca direttamente solo
la fascia scolastica superiore mentre nella fascia iniziale e intermedia si utilizza il sistema
dei giudizi.
Il raccordo docimologico nella valutazione si configura quindi come prerequisito e al tempo
stesso fondamentale obiettivo della continuità scolastica e formativa. (Benvenuto, Natoli,
2000).
La giungla terminologica
Nel 1975 Popham defini il lessico utilizzato nel campo della valutazione con l’espressione giungla
terminologica. Una volta allargato il quadro a livello internazionale la giungla assume dimensioni
maggiori, per continuare con la metafora, ma sta ad indicare l’ampia varietà di prassi valutative
sviluppate ed adottate nei diversi contesti, la necessità di mantenere specificità su alcuni aspetti ma
anche l’uso eccessivo di sinonimi non sempre giustificato. Il Quadro di riferimento europeo per
l’apprendimento, l’insegnamento e la valutazione delle lingue si offre per un utile approccio
comparativo. Alcuni termini centrano la definizione dell’oggetto di valutazione (cosa valutare), altri
riguardano le modalità di attribuzione di voti, giudizi o punteggi (come valutare), alcuni
sottolineano i tempi didattici che spesso scandiscono le funzioni valutative (quando), e infine alcune
espressioni rimandano alla responsabilità nella valutazione (chi valuta).
Il cosa valutare
Quando si valuta, e a volte si ricava di conseguenza un voto o si esprime un giudizio è necessario
chiederci di che cosa ci stiamo occupando. In altre parole, quali sono gli “oggetti” della valutazione.
Vi sono alcune coppie di termini che rimandano a delle riflessioni e spesso incomprensioni che si
sviluppano quando si deve valutare collegialmente e individualmente. Tra queste si ricordano:
1. Profitto scolastico / padronanza
La valutazione del profitto (valutazione disciplinare), almeno in contesti scolastici, è quella che
mira all’accertamento del raggiungimento di un progresso rispetto ad un punto di partenza, dello
scarto tale da poter definire il percorso di studio ed apprendimento in termini di acquisizione di
risultati o raggiungimento di obiettivi. Genericamente inteso il profitto rimanda ad apprendimenti di
insegnamento scolastico e quindi a obiettivi di programma e contenuti disciplinari. Si tratta quindi
di una valutazione interna alla scuola e/o della disciplina di insegnamento. Un insegnante che valuta
in termini di profitto è fondamentalmente interessato a rilevare e valutare il guadagno, la crescita
rispetto a determinati punti di partenza.
La valutazione di padronanza o di competenza (valutazione dei saperi), invece, più specificamente
rimanda a forme di verifica dell’acquisizione di saperi utili anche al contesto extra scolastico, come
ad esempio per le professioni. E questa quindi una valutazione più attenta al mondo esterno.
Le due valutazioni di profitto e competenze rimandano (persino) ad un possibile continuum relativo
alla prospettiva valutativa più o meno orientata all’interno o all’esterno della scuola.
2. Conoscenze / prestazioni
La valutazione orientata alle conoscenze rimanda all’accertamento di concetti, fatti e nozioni, per
rimanere in una terminologia ben conosciuta nella scuola, cioè tende a saggiare la memorizzazione
dei contenuti di studio.
La seconda, quella orientata alle prestazioni si rivolge, attraverso prove dirette, alla verifica di
elementi costitutivi delle competenze. Non potendo verificare le competenze, si verificano le
prestazioni (comportamenti osservabili) che ne segnalano l'acquisizione.
3. Standard / progresso
Per valutazione di standard si intende quella che permette di selezionare, discriminare tra chi ha
raggiunto un determinato livello (competence standard), o soglia di accettabilità (cut-off point) e chi
si trova al di sotto di tale traguardo. La divisione tra esperti/non esperti, competenti/non, tipica di
una valutazione che si base su criteri di padronanza non tende alla misurazione dei gradi di qualità
dei risultati conseguiti.
La valutazione di progresso o basata su criteri di progressivita va invece a rilevare proprio il
continuum di quegli apprendimenti che portano al raggiungimento o meno di una determinata
competenza. Essa dovrà quindi identificare tutti i livelli significativi della padronanza e procedere
ad una valutazione, graduale e in sequenza di tali livelli. Un esempio di valutazione delle
padronanze è l’ECDL che si raggiunge attraverso una serie di 7 prove di padronanza, ciascuna con
specifici criteri che definiscono lo standard da raggiungere.
4. Formativa / sommativa
La v. formativa è quella che appunto dà forma agli apprendimenti, cioè si svolge durante i percorsi
formativi e serve a regolarne gli obiettivi, i tempi, le modalità. Essa è un processo continuo, aiuta la
raccolta di quelle informazioni sull’andamento degli apprendimenti, difficoltà e punti di forza,
necessarie per la riprogettazione degli interventi didattici. Con l’espressione valutazione formatrice
si è inteso distinguere quel tipo di valutazione che confronta la percezione che si ha di una
conoscenza/competenza con la loro verifica effettiva.
La v. sommativa è quella che si svolge al termine di un processo di insegnamento o azione didattica
e serve appunto a fare una somma ́ dei risultati ottenuti. Essa in quanto attuata al termine di un ciclo
di interventi, di un modulo, di un corso, è puntuale e nella gran parte dei casi si rivolge alla verifica
del profitto ma anche delle competenze raggiunte.
Il quando valutare
Continua/Discreta:
la valutazione continua è quella che l’insegnante o lo studente svolgono durante l’intero arco del
corso dell’anno.
La valutazione è discreta o puntuale quando è rivolta ad un unico elemento, sia prova, sia in
generale, sia un determinato aspetto di quella prova (es. compito in classe).
Diversi sono i momenti della verifica e della valutazione nella prassi didattica e scolastica.8
1. La valutazione svolta all'inizio di un percorso, o dell'anno scolastico, e la chiamiamo
iniziale o d i ingresso, serve a verificare la situazione di partenza (analisi dei prerequisiti)
per meglio impostare le azioni didattiche successive.
Questa valutazione, se svolta con particolare precisione e su elementi significativi, permette
di individuare le azioni più proficue, di natura compensativa o integrativa, in pratica di:
 mettere a punto i percorsi individualizzati (diagnostica) utili anche a
 indirizzare meglio lo studente (ri-orientamento).
2. Quando la valutazione si svolge durante il processo di insegnamento/apprendimento (in
itinere), essa serve a:
 rilevare informazioni nel corso stesso del processo, nel suo verificarsi, per poterlo
rimodellare (formativa) e migliorare in corso d'opera. La formatività della valutazione
investe il processo stesso di insegnamento e quindi contribuisce a
 finalizzare in modo più efficace gli interventi correttivi e di approfondimento per gli
apprendimenti (diagnostica).
8
Vertecchi, 1984.
Considerando che questa valutazione avviene sotto forme diversificate e soprattutto si
moltiplica durante le fasi didattiche, la chiamiamo continua, proprio ad indicare il suo
carattere permanente e pervasivo.
3. La valutazione che invece si svolge al termine di un segmento formativo (lezione, unità,
modulo, corso), e la chiamiamo finale, diventa riassuntiva del segmento, cioè:
 ne sintetizza il percorso (sommativa)
 descrivendo il raggiungimento o meno di determinati livelli predefiniti di competenze
(certificativa) e
 offrendo giudizi e indicazioni predittivi-previsionali di prosecuzione di percorso
(prognostica).
Il come valutare
Vi sono diverse coppie di termini che rimandano soprattutto al come valutare e definiscono, da un
lato, la varieta di approcci, dall’altro, la necessità di rapportarli alle funzioni della valutazione e
alla natura di cio che si vuole valutare.
1. Riferita alla norma/criterio (prove criteriali)
Nei primi anni 60 Glaser (1963) distinse tra prove normative e prove criteriali.
Le prove normative si riferiscono a quelle forme di verifica che permettono di confrontare i
risultati di chi si sottopone alla prova con i risultati di uno o più gruppi di riferimento che
rappresentano la norma. Questi ultimi gruppi vengono invidividuati come campione rappresentativo
della popolazione a cui ci si riferisce.
Le prove criteriali sono invece quelle forme di verifica che mettono in rapporto le prestazioni dei
singoli con una determinata prestazione tipo (criterio).9
2. Diretta/indiretta
L a valutazione diretta è quella che si attua in contemporanea rispetto al comportamento o alla
prestazione da rilevare. Si presume che quel comportamento o prestazione si manifesti in modo tale
da poter essere sottoposto a una qualche forma di verifica osservabile.
La valutazione indiretta è quella richiesta per quelle competenze non manifeste esplicitamente. Se
vogliamo sapere se uno studente ha capito cio che ha letto, possiamo sottoporlo ad alcune domande
strutturate di comprensione, o chiedergli di dirci oralmente cosa ha capito, oppure chiedergli la
stesura di un riassunto.
9
Cfr. anche p. 134.
3. Soggettiva/oggettiva
La valutazione soggettiva è una valutazione espressa individualmente da uno o più valutatori, e in
quanto individuale puo risentire di molteplici distorsioni che riguardano la scelta degli stimoli e la
condivisione di criteri nella va1utazione.
L a valutazione oggettiva è quella che ha eliminato l’interferenza della soggettività del singolo o
dei diversi valutatori.
4. Liste di controllo/scale di punteggio
La valutazione che ricorre a liste di controllo (check-lists) è spesso di tipo diretto e classifica gli
strumenti attraverso l’uso di indicatori. Le liste sono appunto elenchi di determinati elementi scelti
come indicatori di fenomeni o comportamenti che permettono di riscontrare il raggiungimento di
prestabiliti livelli di apprendimento. Questo tipo di valutazione si occupa maggiormente di
comportamenti da analizzare mentre si sviluppano, in diretta e spesso di natura collettiva. Con la
classificazione non si giunge a delle vere e proprie scale (come nel caso dei punteggi) ma
all’identificazione di categorie che aiutano a distinguere gli elementi da valutare.
La valutazione attraverso scale di punteggio (rating) porta a graduatorie o di tipo numerico o a
fasce di livello.
5. In base all’impressione/a criteri
La valutazione in base all’impressione è di natura soggettiva.
La valutazione in base a criteri (o strutturata) cerca di concordare elementi comuni in base ai quali
raggiungere un giudizio individuale o collegiale di maggior validità possibile.
6. Olistica/analitica
La valutazione olistica è quella di natura sintetica che abbraccia l’insieme di elementi costitutivi
della valutazione di una determinata prestazione.
La valutazione analitica o per tratti è quella che focalizza i singoli aspetti che costituiscono la
prestazione oggetto di valutazione.
7. Di categorie/di serie
La valutazione di categorie fa riferimento a una prova singola e utilizza per la correzione griglie
con più categorie o tratti.
La valutazione di serie si riferisce a una concatenazione o a un certo numero di prove distinte che
vengono valutate con un’unica scala e un semplice voto olistico.
Il chi valuta
Quando il giudizio sugli apprendimenti è espresso dall’insegnante o da un esaminatore si parla di
eterovalutazione. Quando è lo studente a valutare i propria apprendimento si parla di
autovalutazione dello studente. Tutte le forme di autovalutazione degli studenti servono a
rafforzare la consapevolezza personale, e di gruppo, oltre ad aumentare la motivazione
nell’apprendimento e possono integrare le eterovalutazioni nella formulazione di giudizi sintetici.
Gli ambiti delle valutazioni
Oltre alla valutazione dei prodotti o risultati dell’apprendimento risulta essenziale la valutazione
dei processi che portano al loro raggiungimento e quindi delle prassi didattiche o dei programmi
disciplinari e di studio. Tra i diversi modelli generali che si sono utilizzati in questi ultimi anni
quello maggiormente utilizzato fa riferimento alle categorie proposte da Scheerens con il modello
CIPP (contesto, input, processi e prodotti).
- CONTESTO: Offerta culturale e socio-economica del territorio. Numero e caratteristiche degli
alunni
- RISORSE: Finanziarie, Umane, Strutturali
- PROCESSI: 1. ISTITUTO (Progettazione, strutturazione; Coinvolgimento famiglie; Apertura al
territorio; Continuità didattica; Clima scolastico; Spazi e servizi)
2. CLASSE (Didattica e tempo; Uso dei materiali; Sperimentazione, innovazioni,
Valutazione degli alunni)
- RISULTATI: Livelli di Apprendimento; Regolarità del Percorso; Soddisfazione.
CONTESTO
Offerta culturale e socio-economica del territorio
Numero e caratteristiche degli alunni
RISORSE
- Finanziarie
- Umane
- Strutturali
PROCESSI DI ISTITUTO
- Progettazione e strutturazione della scuola
- Coinvolgimento famiglie
- Apertura al territorio
- Continuità didattica
- Clima scolastico
- Uso degli spazi e dei servizi scolastici
PROCESSI DI CLASSE
- Organizzazione didattica e tempo scuola
- Uso dei libri e di materiali didattici - Sperimentazione e
innovazione
- Valutazione degli alunni
SINTESI DELL’ANALISI
RISULTATI
- Livelli di apprendimento
- Riuscita scolastica
professionale
- Regolarità del percorso
Scolastico
- Soddisfazione dell’utenza e
degli operatori
In questi ultimi anni si è passati ad una dimensione ecologica della valutazione. In questo caso ci si
preoccupa del contesto (context evaluation) nel quale si svolgono le attività scolastiche (dai principi
di professionalità nell’insegnamento – valutazione degli insegnanti – all’attivazione di pratiche
gestionali – autonomia e decisioni organizzative di competenza del dirigente scolastico). Si passa da
una verifica quantitativa ad una verifica qualitativa del servizio scolastico.
La verifica per obiettivi
Nella letteratura di settore e nell’uso scolastico, molto spesso i termini obiettivo, traguardo
formativo, meta o finalità sono utilizzati come sinonimi.
Gli obiettivi sono esplicitazione di cio che dovrebbe essere raggiunto attraverso le azioni didattiche
intenzionali e in considerazione dei livelli di partenza dei singoli allievi.
Definire un obiettivo significa quindi indicare il traguardo in vista di una didattica. È in tale
contesto che i docenti organizzano le sequenze didattiche (programmazione didattica) considerando
la specificità della singola disciplina (programma disciplinare) e all’interno di finalità di corso
generali (curricolo).
Nell’organizzazione didattica ogni obiettivo puo essere scomposto in sotto-obiettivi. Cio che conta
è che gli obiettivi siano specifici, razionali, valutabili e misurabili intersoggettivamente per mezzo
di prove oggettive di verifica. Nell'organizzazione didattica il docente indica diversi livelli di
obiettivi: generali (che riguardano la crescita personale dello studente – finalita e obiettivi
educativi), relativi a una specifica disciplina (obiettivi specifici). Se poi si esplicitano gli obiettivi
all’interno del percorso didattico si puo diversificare tra obiettivi iniziali (obiettivi prerequisiti), da
raggiungere durante (obiettivi intermedi) o al termine delle azioni didattiche (obiettivi finali,
terminali).
Intorno agli anni '70 in Italia si inizio a riflettere sulla programmazione didattica e sulla
formulazione degli obiettivi10. In tale ambito si inizia a palare di Mastery Learning. Il mastery
learning traducibile come "apprendimento per la maestria o della padronanza" è un modello di
azione didattica che mira ad un apprendimento efficace per il più alto numero di allievi. Si tratta di
un approccio collettivo all'istruzione individualizzata.
La quasi totalita degli alunni può imparare bene la maggior parte di ciò che viene loro
insegnato solo se è posta in situazioni significative e stimolanti.
F u Carroll (1963) a sviluppare il modello concettuale di apprendimento scolastico alla base di
questa metodologia. Il grado di apprendimento scolastico dipenderà dal tempo che lo studente ha
effettivamente impiegato nell’apprendimento in rapporto al tempo di cui ha bisogno. Oltre alle
10 La causa furono i decreti delegati, che introdussero la programmazione nella scuola.
caratteristiche dell’allievo sono le caratteristiche dell’istruzione a giocare un ruolo decisivo negli
apprendimenti; per dimensionare i tempi individuali e quelli dell’istruzione scolastica è quindi
indispensabile tener conto: 1) della perseveranza dello studente, 2) della sua opportunità di
apprendere, 3) dell’attitudine dello studente per la materia, 4) della qualità dell’istruzione e 5) della
capacità di comprendere l’istruzione.
Il modello di Carroll è il seguente:
1. Perseveranza, 2. Opportunità di apprendere
Grado di apprendimento= f
3. Attitudine, 4. Qualità dell'istruzione,
5. Capacità di comprendere l'istruzione
Gli esperimenti condotti da Bloom hanno consentito di verificare che questo modello teorico, una
volta trasformato in modello operativo, puo portare circa l’80% degli studenti a conseguire gli
obiettivi formativi stabiliti. Dunque i passi che il docente deve compiere perche tale modello risulti
efficace sono:
•
formulare chiaramente cio che si intende per padronanza (mastery) della propria materia
definendo cio che gli studenti devono imparare;
•
determinare il livello o standard di padronanza (mastery performance) da raggiungere;
•
suddividere il corso in una serie di unità d’insegnamento-apprendimento più piccole; ogni
unità dovrebbe prevedere tecniche di feedback/correzione e permettere di sperimentare
modi alternativi per apprendere il materiale;
•
mettere a punto test diagnostici del progresso per ogni unità e una prova finale.
Un punto qualificante e centrale dell’intero processo del mastery learning è quindi la definizione
degli obiettivi da conseguire. E la verifica degli obiettivi è passaggio imprescindibile.
La prima impostazione per la determinazione degli obiettivi fu suggerita da Tyler, il quale afferma
che “il modo più utile per definire gli obiettivi è quello di esprimersi in termini che identificano sia
il genere di comportamento da sviluppare negli studenti sia il contenuto o campo vitale in cui tale
comportamento deve esplicarsi”.
Definire un obiettivo con sufficiente chiarezza significa , secondo Tyler: “descrivere o illustrare il
genere di comportamento che lo studente deve acquisire, in modo che chi lo abbia visto, possa
riconoscere tale comportamento”. Per sviluppare le indicazioni di Tyler alla fine degli anni ’40 negli
USA si svilupparono dei gruppi di lavoro per mettere a punto le tassonomie di obiettivi educativi.
Bloom e collaboratori (1956) svilupparono quella di area cognitiva, risultata un’utile guida per gli
insegnanti nella loro programmazione.
TASSONOMIA DI BLOOM
OPERAZIONE
Conoscenza
DEFINIZIONE
La capacità di ricordare o riconoscere un contenuto in forma praticamente
identica a quella nella quale esso è stato presentato originariamente. Es. l'anno
della scoperta dell'America o E=mc2
Comprensione
Questa operazione implica 3 capacità:
traduzione (trasporre il contenuto presentato da una forma simbolica ad un’altra
– es. spiegare verbalmente un grafico);
interpretazione (capacità di spiegare e riassumere il significato generale di un
contenuto presentato) ;
estrapolazione (comporta la capacità del discente di andare oltre il contenuto
presentato per determinare le probabili applicazioni, conseguenze o effetti date
le condizioni descritte – es. tratte le conclusioni di una discussione).
Applicazione
La capacità di utilizzare il contenuto espresso o per risolvere un problema o per
apprendere con maggior facilità in una situazione nuova (es. utilizzare le
operazioni matematiche per trovare un errore in un libretto di assegni).
Analisi
Questa operazione è sostenuta da due tipi di capacità:
l’analisi degli elementi (richiede che lo studente sia in grado di scomporre un
contenuto che gli viene presentato (es. trovare i paragrafi di un testo, o i verbi);
l’analisi delle relazioni (presuppone nello studente la capacità di individuare la
relazione tra una parte di un aggregato di contenuto e le altre parti di esso (es.
trovare la relazione tra uso del colore nella pittura e l’evocazione di emozioni).
Sintesi
La capacità di organizzare e combinare il contenuto in modo da produrre una
struttura, un modello o idea nuovi. A questo livello lo studente deve comunicare
in modo reale ed esercitare la capacità creativa. (es. allestire una
rappresentazione di classe).
Valutazione
La capacità di esprimere giudizi sia qualitativi che quantitativi sul modo in cui
particolari elementi o aggregati di contenuto soddisfano criteri interni o esterni.
Lo studente deve esprimere un giudizio sul lavoro e sull’utilità di qualcosa per
uno scopo determinato. Lo studente che compie una valutazione in base a criteri
interni dovrà usare come proprio strumento la coerenza logica; se la valutazione
è fatta in base a criteri esterni deve usare come suo strumento criteri ben
specificati, fornitigli da esperti.
Riprendendo Tyler, Mager (1972-76) fornisce una dimensione operativa alla didattica per obiettivi.
Per Mager un obiettivo è “la descrizione di una performance che gli studenti devono essere in grado
di mostrare per essere considerati competenti; descrive cioè il risultato che l’istruzione di prefigge
piuttosto che il metodo didattico”.
Egli fornisce anche indicazioni sul come verificare il raggiungimento degli obiettivi didattici
attraverso il processo di operazionalizzazione degli obiettivi. Per formulare gli obiettivi il docente
dovrà rispondere a tre domande:
1. Che cosa dovrebbe essere in grado di fare l’allievo (performance);
2. In quali condizioni si vuole che l’allievo sia in grado di produrrei il comportamento
desiderato? (condizioni);
3. Come dovrà essere tale comportamento) (criterio).
L’elenco delle performances di un obiettivo e l’esplicitazione delle modalità da utilizzare per
verificarle (compiti, prove, attività che permetteranno la loro osservazione e misurazione), sono fasi
operative della definizione degli obiettivi.
La centralita delle competenze
Il termine competenza, di largo uso in ambito professionale e lavorativo, è stato recentemente
ripreso in molti documenti e in un ampio dibattito culturale che ha attraversato la scuola, e nel
regolamento attuativo del nuovo esame di Stato (1998), insieme ad altri termini, contribuendo a
ingenerare non poche interpretazioni11. La confusione risiede nel fatto che molto spesso per definire
competenza si rimanda esplicitamente a uso di capacità o ad abilità, creando una sorta di corto
circuito nella comprensione. La competenza si puo intendere come:
1. Possesso (padroneggiamento, padronanza, presenza) di determinate dimensioni
(conoscenza, capacità, abilità)
2. Utilizzazione di quelle dimensioni in contesti operativi (situazioni, aree specifiche,
problemi).
Con il termine competenza possiamo quindi intendere complessivamente il saper utilizzare
determinati livelli di “conoscenze/apprendimenti” (teoriche e operative) in specifici contesti .
Diversa è la questione su quali siano i livelli di competenze da considerare centrali a scuola o nei
diversi contesti formativi o professionali. E di conseguenza su come si possano verificare e valutare
le performances che individuano una competenza. Vertecchi distingue fra:
competenze generali, ossia libere da determinazioni settoriali (competenza lessicale, competenza
linguistica attiva e passiva; competenze inferenziali; competenze percettive, operative e motorie) e
competenze concorrenti, che si riferiscono agli apporti di competenza propri di determinate
articolazioni della conoscenza, e quindi di derivazione disciplinare o pluridisciplinare.
Un’altra classificazione che proviene da studi in ambito di formazione professionale (Di Francesco,
1997) rimanda a 3 aree, che entrano in gioco in diverse situazioni e che permettono al soggetto di
trasformare i saperi in un comportamento lavorativo efficace:
- Competenze di base o generali (conoscenze che costituiscono i requisiti per l’accesso a
qualsiasi percorso di formazione professionale e al lavoro);
11 «L'analisi e la verifica della preparazione di ciascun candidato tendono ad accertare le conoscenze generali e
specifiche, le competenze in quanto possesso di abilità, anche di carattere applicativo, e le capacità elaborative,
logiche e critiche acquisite». Art. 1 c. 3, regolamento attuativo sul nuovo esame di stato (1998).
- Competenze tecnico-professionali (saperi e tecniche necessarie all’interno delle attività
operative, richieste dai processi di lavoro nei diversi ambiti professionali);
- Competenze trasversali (competenze comunicative, relazionali di problem solving).
Per certificare le competenze bisogna individuare le performances che definiscono una
competenza, e definire eventuali standard con cui confrontare le prestazioni aggiuntive. Quel che di
solito si verifica non è quindi la competenza ma alcune prestazioni (performances) ad essa
collegate. Le prestazioni sono degli indicatori di quelle competenze, e per misurare le competenze
abbiamo bisogno di:
- individuare una serie (cioè un numero consistente) di prestazioni che siano validi indicatori
di quella competenza;
- rilevare il grado o il livello raggiunto in quella competenza.
A tal proposito è possibile definire diversi livelli di possesso di una competenza (5):
a) Livello del principiante: il soggetto tende a seguire regole e principi comunicati dall’esterno
senza tener conto in modo esplicito del contesto in cui opera; si presenta in genere privo di
flessibilità e di esperienza;
b) Livello del principiante avanzato: il soggetto riesce a collegare quanto studia, o ha studiato,
con l’esperienza che sta progressivamente sviluppando nel contesto della sua attività e a
selezionare i comportamenti da adottare;
c) Livello della competenza: le prestazioni sono basate sui principi abbastanza generali derivati
non soltanto dallo studio ma soprattutto dall’esperienza;
d) Livello di competenza avanzata: si ha una notevole capacità di inquadrare le situazioni da
affrontare;
e) Livello dell’esperto: il soggetto riesce a cogliere agevolmente un quadro completo e
articolato delle situazioni da affrontare e ad agire per affrontarle in modo fluido, appropriato
e senza sforzo.
Apprendere in gruppo e le valutazioni autentiche
“La forma dominante di apprendimento e prestazione a scuola è quella individuale: anche se
occasionalmente si fanno svolgere attività di gruppo di vario genere, in definitiva gli studenti sono
giudicati per quello che sanno fare da soli. Inoltre una parte rilevante delle attività fondamentali
della scuola sono costruite sulla base del lavoro individuale: compiti a casa, esercizi in classe e
simili. Quasi sempre, lo studente va bene o va male in un compito indipendentemente da quello che
fanno gli altri studenti (a parte per gli effetti dei voti su una curva!), mentre molte delle attività
esterne alla scuola sono condivise socialmente” (Resnick, 1987).
Accanto a questo modello si diffondono contesti in cui l'apprendimento è più interattivo e
multiforme e la gran parte dei compiti cognitivi sono svolti in gruppo.
Le esperienze delle Communities of Learners (COLS, Comunità di studenti), (Brown e Campione,
1994) o Fostering Communities of Learning (FCL) (Ridefinite da Brown nel 1997) rilanciano il
discorso della valutazione su binari completamente diversi.
Accanto all'eterovalutazione gestita dal docente (teacher assessment) si affiancano:
- autovalutazione gestita dallo studente (self-assessment);
- valutazione tra pari (peer-assessment);
- valutazione di gruppo (group-assessment);
- valutazione di natura collaborativa (collaborative-assessment).
Sotto l’etichetta di “valutazioni autentiche” si è sviluppata intorno agli anni ’90 negli Stati Uniti una
corrente di pensiero che si contrappone alle forme di valutazione tradizionale; invece di privilegiare
forme standardizzate per la verifica, si cerca di verificare non solo ciò che lo studente sa, ma ciò
che sa fare con ciò che sa.
Per “valutazione autentica” si intende quella valutazione che mira a verificare l’utilizzo delle
conoscenze in compiti realistici o extrascolastici.
Khattri e Sweet (1996) indicano precise distinzioni tra le dizioni di 1) valutazioni alternative, 2)
autentiche e 3) di prestazioni, in rapporto alle forme di valutazione tradizionali:
1) alternative assessment – distinzione tra fact-based e multiple choice testing;
2) authentic assessment – natura real life di compiti che caratterizzano l'assessment;
3 ) performance assessment – tipo di assessment che «richiede allo studente di fare, dimostrare,
costruire [o] sviluppare realmente un prodotto o una soluzione sotto condizioni e standard definiti».
(p. 94 del testo originale).
Anche Comoglio (2002) offre un confronto tra test tipici e compiti autentici (Tab. 3.6 p. 95). Ma già
Resnick (1987) aveva identificato le discontinuita tra apprendimento scolastico ed extrascolastico, distinguendone 4:
Scuola
Attività cognitiva extra-scolastica
a) Si concentra sulla prestazione individuale
È condivisa socialmente;
b) Incoraggia il pensiero privo di supporti
Include strumenti cognitivi
c) Coltiva il pensiero simbolico
È direttamente coinvolta con oggetti e
situazioni
d) Insegna capacità e conoscenze generali
Forma alle competenze specifiche.
Riassumendo, le variabili che entrano in gioco nella valutazione dell'apprendimento scolastico
sono:
a ) l'identificazione dell'oggetto (cosa sottoporre a verifica), orientato da da didattiche per
obiettivi disciplinari o per competenze generali;
b) i destinatari delle verifiche, che puo essere il singolo studente o lo studente in gruppo;
c) le modalità delle rilevazioni, di tipo più descrittivo o misurativo;
d ) il soggetto della valutazione (chi valuta), che preferenzialmente è l'insegnante, ma in
funzione di diversi contesti e modalità di apprendimento la responsabilità della valutazione è
dello studente o di un gruppo di studenti.
Le funzioni della valutazione
Molti autori hanno fornito una classificazione delle diverse funzIoni della valutazione ma non
risulta esserci un accordo generale. Scriven, pensando al complesso di azioni didattiche da
intraprendere in contesti educativi, definisce la funzione formativa e quella sommativa.
• Formativa: quando la rilevazione delle informazioni sul procedere degli apprendimenti
(verifiche individuali e di gruppo) è compiuta allo scopo di rimodellare il processo
dell’istruzione. Il meccanismo di retroazione è alla base di questo concetto. Puo essere:
- diagnostica (per individuare modalità o difficoltà dello studente);
- prognostica (per interpretare se lo studente puo seguire un modulo di insegnamento)
• Sommativa: quando la rilevazione delle informazioni sul procedere degli apprendimenti è
compiuta allo scopo di controllare il raggiungimento degli obiettivi posti dall’azione
didattica. Essa si chiama sommativa in quanto avviene in fase terminale di un processo.
De Landsheere (1971) fornisce un’altra classificazione delle funzioni della valutazione.
Diagnostica: quando si cerca di scandagliare le possibili lacune o difficoltà dello studente per
mettere a punto le migliori e più efficaci procedure didattiche;
Misurativa: quando si prova a raggiungere alcune quantificazioni degli apprendimenti, nel tempo
rispetto a se stesso (profitto), rispetto alla classe o a gruppi più ampi;
Predittiva e prognostica: quando si vuole avanzare delle previsioni sulla base dei risultati presenti
rispetto a sviluppi successivi.
Un quadro di sintesi degli strumenti di verifica scolastica
Gli strumenti che possono essere costruiti ed utilizzati per le diverse esigenze valutative sono
molteplici. Gli strumenti di verifica più utilizzati continuano ad essere quelli più tradizionali: le
prove scritte sono presenti nell’82% delle elementari e nel 74% delle superiori, le interrogazioni
non programmate nel 51% delle elementari e nel 62% delle superiori.
I test di profitto costruiti dagli insegnanti (39-48%) sembrano prevalere su quelli suggeriti dai libri
di testo (29-39%) e sicuramente su quelli forniti da istituti specializzati (3-7%). Probabilmente
questi ultimi sono ancora poco conosciuti, diffusi o reperibili, ma anche la buona percentuale
relativa ai test costruiti dagli insegnanti lascia molti dubbi interpretativi.12
I l compito del docente è allora quello di prendere decisioni sullo strumento che meglio si adatta,
coerentemente agli obiettivi di verifica individuati e ai limiti imposti dal contesto in cui opera;
l’affidabilità dei diversi strumenti di rilevazione si ottiene controllando le diverse fasi di costruzione
e utilizzazione, ma anche disponendo di un accordo nelle scale di misura a cui essi rimandano.
Quali prove adottare?
• Le prove strutturate, offrendo sia uno stimolo chiuso sia modalità di risposta predefinite,
offrono maggiori garanzie di affidabilità nell’attribuzione di punteggi e voti, ma spesso sono
di difficile costruzione o non permettono di indagare specifiche abilità. Stiamo parlando
fondamentalmente dei quesiti oggettivi, che possono presentarsi sotto forme di quesiti a
scelta multipla, vero/falso, corrispondenze e completamenti;
• l e prove semi-strutturate sono quelle che offrono uno stimolo o delle istruzioni di tipo
chiuso e un'autonoma elaborazione delle risposte. La chiusura dello stimolo presenta quei
vincoli che permettono di presentare a tutti la stessa domanda o situazione problematica,
l’apertura della risposta permette invece di esibire i diversi gradi di strutturazione
(comprensione e studio) e di originalità che gli studenti possono avere relativamente ai
diversi livelli di apprendimento;
• l e prove libere, o aperte, ancor più di quelle semi-strutturate sono particolarmente adatte
per alcune fasi formative della didattica, e per un approccio dialogico e maggiormente
interattivo nella valutazione, ma di difficile utilizzazione in sede di misurazione collegiale.
Per i vari tipi di prove, rispetto al grado di apertura/chiusura di stimoli e risposte vedi la tab. 3.9. a
p. 103.
12 Indagine IARD sulle condizioni di vita e lavoro nella scuola italiana (Cavalli, 2000)
CAPITOLO 4
LE MISURAZIONI IN CAMPO EDUCATIVO
Tutte le volte che attuiamo una verifica dobbiamo fare delle scelte. Nell’esprimere una valutazione:
- Decidiamo cosa valutare
- Selezioniamo alcuni elementi caratteristici
- Costruiamo lo strumento di verifica da utilizzare
- Decidiamo in quale modo proporlo
- Ricorriamo a precise scale di misurazione per costruire punteggi o formulare giudizi di
merito.
Caratteristiche (requisiti) degli strumenti di misura
Validita  uno strumento è valido se misura quello che, attraverso il suo impiego, intende
misurare (consiste nel grado di corrispondenza tra la misura e cio che si vuole
misurare).
Affidabilita  uno strumento è affidabile se, sottoposto allo stesso stimolo, fornisce la stessa
misura.
La validita
La validità di una misura consiste nel grado di corrispondenza tra quella misura (rilevazione) e cio
che si vuole misurare (fenomeno). Garrett (1937) defini un test valido se effettivamente misura cio
che si propone di misurare. Cio che è possibile validare non è mai uno strumento in se, ma uno
strumento in relazione allo scopo per il quale viene costruito. Cio che a noi interessa che abbia
validità non è tanto lo strumento quanto una particolare interpretazione dei dati ricavati dal suo
utilizzo. E’ possibile che uno strumento sia valido per misurare un fenomeno diverso da quello che
vogliamo misurare.
La validità di una misura e successivamente di una valutazione è strettamente correlata al tipo di
strumento che si adopera. La validità degli strumenti di misura puo essere verificata relativamente a
contenuti, criteri, costrutti e modalità di presentazione.
Validita di contenuto: Per valutare gli obiettivi raggiunti o un livello di competenza in un settore,
dobbiamo coprire il più ampio spettro di quel settore. Per far questo si possono “campionare” gli
elementi da sottoporre a verifica.
Il controllo della validità di contenuto si espleta attraverso:
o Il riscontro della significatività degli elementi da sottoporre a verifica. Essi dovrebbero
essere centrali e utili per la valutazione;
o La scelta intenzionale e programmata degli elementi da sottoporre a verifica come
rappresentativi del settore di contenuti o della competenza da valutare.
Validita di criterio: indica la validità di un test confrontando i suoi risultati con altre misure della
stessa abilità rilevate in modo indipendente. Si tratta dunque di utilizzare un’altra misura come
criterio per validare la prima. Un modo molto semplice per validare secondo il criterio è quello di
prendere i punteggi di un test e verificare se sono correlati con altri punteggi che l’insegnante ha
attribuito in modo autonomo ai suoi studenti.
Per verificare cosa misura una determinata prova, si potrebbero utilizzare strumenti analoghi o
misure diverse come misura-criterio. Trattandosi di una verifica indiretta, lo strumento usato come
misura-criterio dev'essere anch'esso attendibile.
Il controllo della validità di criterio è possibile se disponiamo di misure simultanee, o fatte in un
breve periodo. In questo caso pariamo di validita concorrente (concurrent validity). Ma la misuracriterio puo avvenire anche a distanza di tempo, e in questo caso parliamo di validita predittiva;
Validita di costrutto: si riferisce alla bontà di un test giudicata sulla base di quanto i punteggi
ricavati dalla prova hanno senso in relazione alle nostre teorie. Come la validità di contenuto, anche
la validità di costrutto puo essere verificata solo in relazione a un modello teorico. Le operazioni
necessarie per verificare la validità del costrutto prevedono la costruzione di una teoria (definizione
di concetti e dei loro rapporti), la scelta di indicatori per ciascun concetto, la misurazione dei
concetti, il calcolo delle correlazioni tra gli indici dei concetti misurati e il confronto tra queste
correlazioni empiriche e quelle ipotizzate teoricamente tra i concetti.
Nel caso in cui le nostre misure facessero riferimento a un costrutto teorico, potremmo a posteriori
procedere a un’analisi con i risultati emersi da altre misure che fanno riferimento allo stesso
costrutto (validita convergente). Analogamente si puo verificare se misure che fanno riferimento a
costrutti diversi fanno registrare basse correlazioni o risultano indipendenti (validita discriminante).
Validita di presentazione (o apparente): si riferisce alla bontà di un test valutata in base al suo
aspetto da parte di persone che non hanno esperienza di testing. L’aspetto condiziona l’accettazione,
l’uso e la circolazione di un test. Con la validazione di presentazione o di facciata (face validity) si
introduce il controllo di quegli aspetti qualitativi e intuitivi relativamente all’adeguatezza degli
stimoli rispetto ai destinatari previsti.
L’affidabilita
Lo strumento di misura (a scuola compito o test) per essere affidabile dovrebbe permettere una
uniforme rilevazione delle conoscenze e competenze. L’affidabilità di una misura consiste nel
1. grado di precisione con cui puo essere compiuta (in inglese reliable, “che dà affidamento”);
2. garantire un basso livello di interpretabilità e quindi di un uso soggettivo da parte di più
persone;
3. l’affidabilità di una prova puo essere considerata un aspetto della sua validità.13
La precisione nelle misurazioni educative dipende da diversi fattori che si presentano nelle
verifiche. Riguardano lo strumento di misura, il valutatore e il soggetto esaminato.
1 . Precisione dello strumento: dipende da quanto riesce a fornire uno stimolo uguale per tutti,
chiaro, e da quanto permette una registrazione dei dati non soggettiva (condizione tipica delle prove
strutturate);
2. Precisione del valutatore: dipende da:
- variabilità nell’uso che si puo fare dello strumento;
- grado di soggettività del rilevatore nell'attribuzione della misura.
3 . Costanza del soggetto valutato/esaminato – l'incostanza del comportamento degli allievi è
collegata a:
- incostanza e soggettività del valutatore e
- dal tipo di stimolo proposto (cioè al tipo di compito: es. risposte aperte o chiuse),
ma puo anche dipendere da condizioni psicofisiche e ambientali.
Per verificare il grado di precisione raggiungibile dalla prova ideata si puo consultare la check-list
di pag. 115 (Tab 4.1).
Le verifiche dell'affidabilità sono molteplici e rimandano ai diversi formati di prove e stimolo, ma
in generale, le verifiche empiriche riguardano:
- l'omogeneità o coerenza interna;
- l'oggettività delle rilevazioni;
- l'accordo tra chi interpretai risultati della prova;
- la concordanza tra forme parallele;
- la stabilità delle reazioni quando viene riproposta la prova.
I principali controlli dell'affidabilità delle prove sono sintetizzati nella tab. 4.2 a pag. 115.
13 Secondo Boncori (1993) «se una misurazione non è attendibile, è inutile indagare su altri aspetti della sua validità
[...]». Vedi pag. 113
Un esempio di controllo delle validita e dell’affidabilita nella valutazione della competenza di
scrittura
Per esemplificare il controllo della validità e affidabilità è possibile descrivere la valutazione di una
competenza di scrittura. Cosi come si è condotta in una recente indagine internazionale.
Nell’indagine IPS (indagine sulla produzione scritta) realizzata dall'IEA14, uno degli obiettivi
centrali era di mettere a punto degli standard di riferimento rispetto alla competenza di scrittura in
differenti ordini di scuola. Per raggiungere tale obiettivo è stato indispensabile:
a) definire validamente cosa intendere per saper scrivere (modello teorico di riferimento = costrutto
e contenuto) cioè quali competenze nello scrivere un testo e loro caratteristiche (Fig. 4.1
pag.117);
b) mettere a punto una serie di stimoli adeguati (cioè prove di scrittura con istruzioni) alla
misurazione di quel costrutto; (vedi Tab. 4.3 p. 11815)
c) scegliere un metodo di valutazione affidabile (dalla valutazione globale – olistica – a quella
analitica – per tratti;
d) costruire affidabili criteri di correzione degli elaborati;
e) somministrare le prove ad un rappresentativo (sia per livello scolastico, sia per tipologia di
scrittura) gruppo di studenti a livello nazionale;
f) elaborare statisticamente i risultati sia degli studenti (per individuare i valori medi delle
prestazioni) sia dei valutatori (per controllare l’affidabilità della misura).
Le scale di misura
Stevens (1946) distinse 4 tipi di scale di misura, alle quali ancora oggi la docimologia fa
riferimento:
1) Nominale e 2) Ordinale (scale qualitative)
3) A intervalli e 4) Di rapporti (scale quantitative)
Le quattro scale di misura:
1. Scala nominale. Permette di classificare in base all’appartenenza delle singole variabili (dati) a
determinate categorie qualitative, alle quali vengono assegnati dei “nomi” 16. Questa scala è utile
quando:
14 International Association for the Evaluation of Educational Achievement
15 Modello dell'area dello scrivere scolastico (dominio) utilizzato per la selezione delle prove. Secondo il modello, le
dimensioni principali e i fattori che influenzano la produzione scritta sono: 1) processi cognitivi necessari per
scrivere; 2) funzioni comunicative; 3) contenuto dello scrivere. Vedi pag. 116
16 Cioè, se le variabili rientrano o no in determinate categorie
- si vuole registrare la presenza/assenza (si/no) di un determinato comportamento (es. saper usare
alcune strutture linguistiche)
- attribuiamo i risultati finali (idoneo/non idoneo)
- le dimensioni da rilevare sono complesse e non permettono misurazioni “matematiche”.
La scala nominale discrimina e classifica anche se non individua gradi interni. I dati delle scale
nominali consentono di calcolare solo le distribuzioni di frequenza (occorrenze) e le percentuali.
Nella valutazione di apprendimenti scolastici, la scala nominale è utile per misurare la
presenza/assenza di dimensioni che contraddistinguono le competenze (cioè segnali che indicano se
uno sa fare una cosa o no).
2. Scala ordinale o graduatorie. Consente di stabilire delle graduatorie, cioè di ordinare rispetto alla
maggiore o minore presenza di una determinata caratteristica. Non determina la “differenza
precisa”, ma l’ordine: fasce, livelli, bande, ecc...
- Le classi o ranghi permettono di ordinare e costituiscono una scala di valutazione (rating scale)17
che stabilisce relazioni di maggioranza, minoranza, uguaglianza tra le qualità delle variabili
misurate. Anche in questo caso si parla di qualità della misura, poiche non è possibile classificare la
differenza o la distanza precisa tra le singole classi, ma solo il loro rapporto.
I voti scolastici sono un esempio di scala ordinale (anche se molti docenti la usano come se fosse a
intervalli) perche i voti non sono semplici valori numerici, ma rimandano a concetti di sufficienza,
che sono diversi per ogni docente.
3 . Scala a intervalli equivalenti. In questa scala la distanza tra tutti i punti/valori è uguale e
costante: pensiamo alla misurazione della temperatura corporea: ad es. sappiamo che 37 è più di 38
ma lo zero è convenzionale in quanto non indica l’assenza della qualità misurata.
Per la scuola, un esempio dell'utilizzo di questa scala ci è fornito dall'uso di prove oggettive. Il
punteggio totale dei singoli studenti (risposte giuste ai singoli item) consente non solo di dire chi è
andato meglio o peggio, ma anche di quanto.  Scala a carattere quantitativo: si puo definire la
quantità raggiunta dallo studente, calcolare la differenza tra i punteggi e, data la regolarità degli
intervalli, confrontare i punteggi tra loro.18
4. Scala di rapporti. In questa scala, invece, lo 0 significa assenza di quella misura: (età e statura
sono esempi di variabili misurabili con questa scala).
17 Un esempio di rating scale è la tab. 4.4 a p. 123.
18 Per Gattullo i punteggi di un test non si potevano considerare come misura a intervalli, (bensi graduatorie), ma
potevano essere utilizzate come se lo fossero solo per praticità e convenienza. (p. 124-125)
Scale e voti
La distinzione tra le scale è il primo passo per rendere trasparenti i livelli di misura praticabili.
Il secondo è utilizzare una delle scale per differenziare i risultati raccolti con le prove di verifica.
In questo passaggio (tra misurazione e valutazione) si incontrano diversi problemi. Ma quali sono i
punti problematici nel passaggio tra uso delle scale e voti da mettere?
a) In Italia, nei diversi gradi di scuola si usano differenti sistemi di attribuzione di valutazioni;
b) le verifiche possono utilizzare diversi strumenti con differenti scale di misura;
c) nelle prove strutturate (es. oggettive), a volte è necessario convertire il punteggio su scale
ordinali o su scale di intervallo;
d) anche quando si usano prove semistrutturate o aperte (che richiedono criteri per l'attribuzione di
fasce di livello o voti) si utilizzano procedure di valutazione invece che di misurazione.
Ogni forma di verifica dovrebbe rendere possibile il passaggio tra qualità e quantità.
- nelle prove strutturate attribuendo valori numerici corrispondenti al numero di risposte esatte;
- in quelle semistrutturate o aperte attribuendo voti e giudizi che rimandano all'uso di criteri o
descrittori, ma usando sempre valori numerici (anche se meno attendibili rispetto a quelli delle
prove strutturate).
Riprendendo il lavoro di Remondino (1964), il quadro delle scale di misura in uso nel sistema
scolastico italiano risulta cosi aggiornato:
•
scale nominali (promossi/bocciati; si/no);
•
scale ordinali (voti, aggettivi, fasce);
•
scale di intervallo (punti percentili).
Descrittori dell’apprendimento
Per raggiungere una maggiore qualità di analisi nelle rilevazioni che richiedono scale nominali o
ordinali c'è bisogno di:
- individuare descrizioni precise degli elementi che caratterizzano gli apprendimenti da verificare;
- decidere quali siano più significativi e rilevabili;
- costruire uno strumento che permetta di registrarne la presenza e il grado in modo preciso.
Domenici definisce tale strumento lista di descrittori dell'apprendimento.
«Si tratta di descrivere le singole abilità-criterio in termini di prestazioni e di compiti specifici che
in forma positiva, “saper fare”, rappresentino esplicitamente l’avvenuto conseguimento di traguardi
formativi minimi, parziali e intermedi, necessari e/o propedeutici (...). Ciascuna descrizione diviene
cosi il criterio con il quale confrontare le singole prestazioni appositamente sollecitate negli allievi
per stabilire la adeguatezza di ciascuna di esse o la non adeguatezza rispetto al criterio stesso».
(Domenici, 1981).
I descrittori vengono utilizzati in assenza di strumenti di misura particolarmente precisi o oggettivi
ricorrendo all’osservazione sistematica sul campo di indicatori di obiettivi/competenze,
descrivendoli e utilizzando scale di natura nominale o graduatorie (ordinali).
Quanto più la descrizione è di natura operativa (e cioè si definiscono chiaramente gli elementi da
considerare, si illustrano con esemplificazioni i livelli di adeguatezza al criterio) tanto più l’uso di
liste/criteri per la descrizione dell’apprendimento risulta essere valido ed efficace.
Nel Quadro di riferimento europeo (QRE, 2002) si ricorre a descrittori di riferimento per definire
i livelli di apprendimento della lingua straniera. I descrittori sono formulati “positivamente” (dicono
cio che si sa fare), sono “definiti” e “chiari”, “sintetici” e “indipendenti” (cioè non sovrapponibili
tra loro). Il Quadro offre un panorama di descrittori in forma gerarchica e multidimensionale ma
non fornisce scale di misura perche ha l'obiettivo di presentare un modello di riferimento e non un
esplicito sistema di valutazione.
Il Quadro di riferimento delle lingue moderne, elaborato dal Consiglio d'Europa, fornisce una
suddivisione in tre livelli (A, B, C, a loro volta suddivisi in due sottolivelli).
Esigenza di indicatori e di standard
La misura degli apprendimenti puo rimandare a standard di riferimento. È utile quindi chiarire sui
termini di indicatore e di standard.
L'indicatore è uno strumento per la valutazione di determinati fenomeni che permette di compiere
comparazioni. Puo essere discusso con due accezioni:
1. come elemento (o variabile) significativo per l'analisi o la classificazione di un determinato
fenomeno;
2. come elaborazione statistica sulla base di dati precedentemente elaborati.
Nella prima accezione, parliamo di indicatore tutte le volte che scegliamo un elemento come
significativo per la comprensione di un fenomeno. In un contesto scolastico la scelta di indicatori
consiste nell'individuazione delle variabili centrali per la messa a fuoco di determinati fenomeni.
Nel caso dell’apprendimento si rimanda all’individuazione di elementi discreti o più ampi che
segnalano l’acquisizione o meno di determinate conoscenze o competenze.
La seconda accezione (sempre più usata in ambito scolastico) proviene da studi di analisi e
fenomeni sociali. Per affrontare il rischio della soggettività nell'analisi di fenomeni complessi si
ricorre a elementi oggettivi che possano essere indicatori di tali fenomeni.
La caratteristica peculiare di un indicatore è la sua quantificazione, quindi misurazione.
L'individuazione di indicatori seri e funzionali è un'operazione complessa (Visalberghi 1989).
Nel campo della valutazione dei sistemi scolastici, gli indicatori vengono pubblicati annualmente
nel rapporto OCSE19 Educational at a Glance.
Con il termine standard si indica il livello di prestazione (punteggio o criterio) prestabilito da
utilizzare come riferimento per la valutazione. Per valutare se un risultato è accettabile, devo avere
indicazioni sulla soglia di accettabilità o livello di esclusione (cut-off score).
STANDARDIZZAZIONE (standard setting): processo che porta alla definizione e individuazione
dei punteggi o livelli corrispondenti alle diverse prestazioni (compiuto su base statistica o espresso
da esperti).
Gli approcci alla misurazione rimandano a strumenti di tipo normativo e criteriali. Nel primo caso si
compara il risultato del singolo studente in riferimento a un gruppo di altri studenti (assunto come
norma), nel secondo il criterio è assunto come riferimento per la misurazione delle singole
prestazioni. (p. 134).
1° approccio: standard normativo.
Si usa il rango percentile o valori di media e deviazione standard per definire la posizione dello
studente rispetto a una norma (gruppo di riferimento).
Differenza tra standard e norma:
standard  livello convenzionalmente definito che lo studente deve raggiungere o superare
norma  distribuzione dei punteggi del gruppo assunto come riferimento.
2° approccio: standard criteriale.
Si definiscono gli obiettivi da raggiungere e relativi descrittori;
si identifica lo standard prestabilito per la prestazione richiesta (da parte di esperti del settore).
PROVE STANDARDIZZATE:  i diversi quesiti e l'insieme dei compiti richiesti sono dei veri e
propri strumenti di misura. Si conosce cioè il grado di difficoltà medio per ogni quesito.
- Per esemplificare quesiti e prove di questo tipo si fa riferimento a strumenti costruiti a livello
internazionale e tarati su campioni rappresentativi. L'OCSE ha condotto un progetto di indagine
sulle competenze di base dei quindicenni, il PISA20 (tab. 4.7. a p. 136).
Con questo tipo di prove si puo comparare il livello dello studente sui singoli quesiti o su sul
totale delle prove rispetto a standard di riferimento.
- Per esemplificare una prova completa utilizzata per la verifica di competenze e la presenza di
19 Organizzazione per la Cooperazione e lo Sviluppo Economico
20 Programme for International Students'Assessment
standard di riferimento invece, possiamo richiamare i livelli identificati come livello 3 di literacy
(competenza alfabetica funzionale) prodotto nella ricerca IALS-SIALS.21 (fig. 4.6. p. 137):
Definizione della competenza alfabetica funzionale: insieme delle capacità necessarie per
l'elaborazione e l'utilizzo di materiali stampati comunemente diffusi.
Elencazione delle prestazioni e relative prove che individuano la competenza: prove che
accertano: 1) competenza lessicale, 2) capacità di riconoscere il significato di parole in un
contesto, 3) comprensione di un testo breve e 4) di un testo lungo. (fig. 4.7. p. 138)
Livelli/standard di riferimento: per certificare le competenze alfabetiche a fine ciclo di un
percorso di apprendistato è prevista anche la rilevazione di livelli di competenza più bassi.
Il giudizio e le schede di valutazione
Nell’attuale sistema scolastico italiano di istruzione e formazione, i voti sono utilizzati nella scuola
secondaria superiore e i giudizi sono utilizzati nella scuola elementare e nella scuola media.22 Ma
mentre i voti sono attualmente valutazioni di tipo individuale, i giudizi sono espressione sia
individuale sia collegiale. In docimologia, la pluralità di “voci” aumenta il rischio di distorsione
delle valutazioni.
Periodicamente molti docenti individualmente e collegialmente sono chiamati a esprimere giudizi
sia di tipo analitico sia sintetici/globali. I giudizi analitici introducono il problema
dell'approssimazione di un giudizio complesso.
Mentre per la valutazione disciplinare, (singole aree di insegnamento o materie) si utilizzano scale
che raccolgono elementi sugli apprendimenti, per la valutazione della maturazione globale si
integrano livelli disciplinari e prospettive didattiche per le diverse aree disciplinari.
Nella valutazione degli apprendimenti i docenti usano scale di misura a cinque livelli: A, B, C, D,
E. (Vedi tab. 4.8. p. 141).
Nella valutazione globale si descrivono una serie di aspetti, con riferimento a possibili scale di
misura.
21 International Adult Literacy Survey – Second International Literacy Survey. (Indagine internazionale sul
letteratismo della popolazione adulta) – 1994-2000.
22 Focus dalle note:
- Legge Moratti 53/2003, trasformazione sistema scolastico nazionale:
La valutazione degli studenti e del periodo didattico è affidata ai docenti, l'INVALSI effettua verifiche sugli
studenti e sulla qualità dell'offerta formativa, l'esame di Stato si svolge su prove organizzate dalle commissioni e su
prove predisposte dall'INVALSI.
- C.M. 167/1993 informa che D.M. 5/5/93 decreta un nuovo modello di scheda personale per la valutazione degli alunni
della scuola media.
- Dal 1996 (C.M. 491/1996) i modelli di valutazione sono stati modificati per le scuole elementare e per la secondaria di
I grado, l’espressione avviene su scala di 5 livelli.
(Questo dice il libro, nei fatti oggi la valutazione è NUMERICA, il libro è stato scritto ben 15 anni fa).
La sintesi valutativa di un giudizio deve essere significativa rispetto agli obiettivi e comprensibile ai
destinatari.
Il livello globale di maturazione
I giudizi valutativi sono formulati sulla base di descrittori concordati dai diversi docenti (es:
elementi relativi all'apprendimento, alle relazioni sociali e al contesto di studio).
Da un punto di vista docimologico per la formulazione di un giudizio analitico (di singolo docente) e
sintetico (di consiglio o gruppi di docenti) si pongono diverse questioni che rimandano alla capacità
dei docenti di:
- individuare e concordare una serie di indicatori comuni;
- esplicitare la misurabilità che quelle dimensioni trovano nelle diverse discipline;
- comunicare a livello collegiale i livelli per le singole discipline o aree disciplinari;
- sintetizzare le varie rilevazioni e giudizi in una formulazione globale chiara e comprensibile per i
previsti destinatari.
Nel giudizio sintetico finale si esprimono dimensioni legate allo studente. Alle scuole medie
riguardano: conseguimento di apprendimenti, socializzazione nel gruppo classe, capacità
relazionale, prospettive di prosecuzione.
Un giudizio, a differenza del voto (che è una sintesi numerica), è una forma di sintesi linguistica
finalizzata a comunicare:
a) allo studente i livelli raggiunti e quelli previsti;
b) alla famiglia e all’esterno della scuola gli esiti dei percorsi didattici intrapresi.
La struttura di un giudizio sintetico
Nella composizione di un giudizio valutativo di fine ciclo o periodo didattico possiamo identificare
alcuni elementi costanti e altri variabili, cioè non necessariamente presenti. Tra gli elementi costanti
possiamo elencare i livelli raggiunti in termini di apprendimento scolastico o di partecipazione alla
vita e attività scolastica, tra quelli variabili possiamo individuare il piano degli interessi degli
studenti e della loro eventuale partecipazione a momenti didattici specifici.
I livelli di comparazione
Nella formulazione di un giudizio si possono utilizzare diverse modalità o modelli comparativi. I
prevalenti sono:
1. confronto tra una prestazione e un’altra sempre dello stesso allievo, successiva nel tempo;
2. confronto tra le prestazioni di un allievo e gli obiettivi attesi;
3. confronto tra le prestazioni di un allievo e quelle registrate da altri allievi.
Giudizi analitici per discipline
Prima di esprimere un giudizio sintetico, i docenti della scuola dell'obbligo sono chiamati (a fine
quadrimestre o a fine a.s.) a indicare il grado di raggiungimento degli obiettivi.
Esemplificando, le procedure per la costruzione di un giudizio analitico per disciplina, sono:
• Considerare i diversi elementi di misura utilizzati: alcune sono verifiche di tipo strutturato,
altre prove con criterio; ci sono poi osservazioni di determinati comportamenti cognitivi;
alcuni risultati sono ricavati dall’analisi del progresso rispetto ai livelli/standard di ingresso.
• Pesare i singoli elementi rispetto alla loro specificità: stabilire per i diversi elementi il livello
raggiunto rispetto a scale di misura.
• Definire i livelli di scala che il giudizio prevede:; per ogni valore della scala prevedere i
livelli di attribuzione.
Le schede di valutazione nella scuola elementare e media
In circa 20 anni, dai Decreti Delegati del 1977 alla Circolare del 491/1996, si sono susseguiti non
pochi modelli, tutti alla ricerca di comunicare in modo efficace i risultati della valutazione a scuola:
l’osservazione dinamica dei processi e la verifica continua degli apprendimenti.
Con la Circolare Ministeriale 491/1996 si uniformano i criteri per la valutazione degli alunni della
scuola elementare e dell’istruzione secondaria di primo grado. Il richiamo alla distinzione tra
funzione certificativo-comunicativa e funzione didattico-formativa della valutazione si accompagna
alla necessità 1) di ridurre il carico redazionale che pesa sull’insegnante e 2) di garantire chiarezza
alle informazioni destinate agli alunni e alle loro famiglie.
Inoltre l’esigenza di esprimere il giudizio sintetico con una formulazione tra le 5 disponibili (ottimo,
distinto, buono, sufficiente, non sufficiente) è stata determinata, anche, dall’esigenza di garantire
una coerenza con quanto in vigore per gli esami di licenza della scuola secondaria di I grado.
CAPITOLO 5
LA RILEVAZIONE ATTRAVERSO TEST
Le prove strutturate solo recentemente hanno trovato ampia diffusione nel sistema scolastico
italiano. Esse sono tra i principali strumenti di verifica scolastica utilizzati per assegnare voti o
formulare giudizi. Queste prove sono state chiamate in molti modi: prove strutturate di conoscenza,
oggettive di profitto o semplicemente test. La pratica del testing, che garantisce una valutazione di
ordine quantitativo, è quindi particolarmente indicata per l’accertamento del profitto scolastico.
Vantaggi, limiti e pregiudizi
La diffusione del testing in Italia è stata ed è ancora controversa. Tra i principali limiti dell’uso dei
test nella scuola si ricordano:
• Si limita la libertà di espressione degli studenti e di dialogo degli insegnanti: attraverso le
prove oggettive non si richiede di esprimersi liberamente nel senso di una creatività di
risposta. Anzi si richiede di segnalare la propria risposta tra quelle predefinite nella prova.
• Necessità di molto tempo per la costruzione: costruire delle buone prove oggettive non solo
richiede del tempo ma anche delle specifiche competenze, non solo disciplinari ma anche
relative alla metodologia e tecnica di costruzione di test.
• Scarsa collaborazione nella costruzione: di solito i docenti si ritrovano a costruire
autonomamente le prove oggettive, impegnando un personale dispendio di energie e una
naturale soggettività. La collaborazione nella costruzione insieme al controllo delle diverse
fasi della costruzione, permetterebbe invece la condivisione dei compiti, la conseguente
riduzione dei carichi e un controllo intersoggettivo.
• Casualità delle risposte.
• Misurazione solo in alcuni aspetti dell’apprendimento (es. la creatività non viene valutata).
• Misurazione del prodotto e non del processo: si è spesso sostenuto che dalla semplice
risposta dello studente sia difficile, se non impossibile, risalire al ragionamento sotteso.
Addirittura, una risposa esatta potrebbe risultare da ragionamenti in parte errati e viceversa.
Per quel che riguarda i principali vantaggi dell’uso dei test nella scuola:
• Oggettivita della verifica: l’oggettività consiste nell’eliminazione dell’influenza dei giudizi
personali di chi valuta;
• Rapidita e facilita d’uso: predisponendo dei fogli di risposta e avendo a disposizione la
chiave di correzione si possono in pochi minuti correggere le diverse domande che
compongono la prova e calcolare il punteggio totale;
• Risparmio di tempo per la valutazione;
• Simultaneita delle misurazioni: le prove oggettive consentono di sottoporre nello stesso
tempo tutti gli studenti allo stesso tipo di domande;
• Riferimento a vaste aree di contenuti;
• Recupero individualizzato;
• Stimolo a uno studio continuo;
• Forme collaborative con studenti e tra docenti: La collaborazione serve a condividere non
solo gli obiettivi ma anche gli strumenti delle verifiche. La collaborazione nella costruzione
o revisione di prove oggettive è un formidabile strumento formativo (ci si interroga su cosa
domandare, come fare le domande, sul peso da assegnare nelle correzioni.
Alcune precisazioni terminologiche
I test, o prove strutturate possono essere di diverso tipo. Le prove strutturate:
• Normalmente sono costituite da test a risposta chiusa in cui l'alunno deve scegliere, tra varie
risposte, quella esatta;
• Sono oggettive quando è possibile predefinire le risposte corrette per i singoli quesiti;
• Si chiamano prove strutturate di conoscenza o test di profitto quelle prove oggettive
che riguardano l’accertamento di conoscenza e competenze oggetto di studio scolastico;
• Possono essere prove di classe o prove standardizzate:
• Le prove oggettive di classe (classroom o informal objective tests)
sono comunemente costruite all’interno della situazione scolastica, in classe, dai
singoli professori o da un collegio di docenti, con o senza l’ausilio degli studenti.
Queste prove sono poi utilizzate durante la prassi didattica per verificare il livello
raggiunto dagli studenti su un determinato argomento;
• Le prove oggettive tipo o test tipo (standardized objective tests)
sono quelle messe a punto in modo tale da permettere un confronto con risultati
ottenuti da uno specifico universo di studenti;
Le prove standardizzate possono avere come livello di riferimento e confronto una
norma o dei criteri. Il riferimento è quindi un metodo per interpretare i risultati a una
prova. A tal proposito si distinguono:
a) Le prove normative, che permettono di confrontare i risultati di chi si sottopone
alla prova con quelli di uno o più gruppi di riferimento che rappresentano la norma.
b) Le prove criteriali, che mettono in rapporto le prestazioni dei singoli con una
determinata prestazione-tipo. In questo caso il confronto non è con un livello
raggiunto da un gruppo di riferimento ma con uno standard predefinito di
prestazione.
In sintesi: con le prove normative l’interpretazione dei risultati è quindi relativa ai
risultati di altri gruppi, con le prove criteriali è assoluta, cioè è rapportata a una
buona descrizione della competenza da valutare.
Criteri per la progettazione, costruzione e utilizzazione
Le prove oggettive si dimostrano particolarmente utili quando si vuole giungere a valutazione di
determinate prestazioni per un alto numero di studenti e in breve tempo. Una prova strutturata si
presenta come un insieme di stimoli strutturati a soluzione predefinita. Si tratta di mettere a punto:
• I l tipo di stimolo: definire la forma del quesito o item (domande a scelta multipla, vero/
falso) o altre forme ( problema, analisi di caso ecc.) che presentano il contesto del problema
da sottoporre;
• La strutturazione dello stimolo: circoscrivere cioè il campo delle possibili risposte;
• La soluzione predefinita: indicare la risposta corretta a priori, ovvero formulare i criteri
in base ai quali attribuire un punteggio di correzione.
La progettazione di una prove oggettiva richiede una serie di decisioni teoriche e operative. Si tratta
di entrare nel merito dei singoli contesti di verifica. Le diverse decisioni sono:
• Stabilire gli obiettivi della prova;
• Determinare i tempi di utilizzazione;
• Specificare la prova;
• Formulare i quesiti e le istruzioni;
• Attribuire pesature per la correzione;
• Eseguire la standardizzazione della prova.
Stabilire le finalita della prova
Il primo passo da seguire consiste nell’esplicitare quali sono le finalità di valutazione della prova. Si
possono catalogare le finalità in 4 categorie:
a) Di ingresso (placement): per misurare i prerequisiti e le abilità indispensabili per attivare
un’unità formativa
b) Diagnostiche (diagnostic): per verificare specifiche difficoltà nell’apprendimento e costruire
mirate procedure di recupero
c) Regolative del processo (formative): per fornire feed-back allo studente per auto valutarsi e
al docente per modificare le didattiche
d) Finali/certificative (summative): per assegnare voti, mettere in graduatoria, certificare
competenze.
Nel rispetto della collocazione sull’asse del tempo didattico e formativo, le differenti prove saranno
costruite con modalità differenti, per permettere la più valida misurazione degli obiettivi specifici. È
molto probabile che per le prove utilizzate per l’analisi dei prerequisiti e soprattutto nella funzione
di verifica formativa si utilizzino forme miste: quesiti più oggettivi e quesiti più aperti.
Le diverse finalità e funzioni delle prove forniscono indicazioni sulla tipologia di quesiti da
utilizzare e sui tempi di somministrazione. L’ampiezza della prova dovrà considerare sia la durata
(tempo di svolgimento), sia il periodo nel quale si svolge (tempo didattico).
Determinare gli obiettivi dei quesiti
Una buona definizione di obiettivi consiste nell’esatta o almeno più completa possibile definizione
dei comportamenti da misurare/valutare.
Mager (1972) definisce un buon obiettivo ben formulato quello che esplicita i seguenti elementi:
• Cosa deve essere in grado di fare l’allievo per dimostrare di aver raggiunto quell’obiettivo
(prestazione/performance)
• In quali condizioni l’allievo deve dimostrare di aver raggiunto quell’obiettivo (condizioni)23;
• Quali indicatori/parametri dobbiamo adottare per correggere/valutare il
raggiungimento di quell’obiettivo (criterio)..
Specificare la prova (selezione della forma dei quesiti)
Una volta stabilita la finalità della prova e gli obiettivi in generale, la fase successiva consiste
nell’individuare il tipo di quesiti da porre e quindi nel pianificare la costruzione della prova.
Due sono le forme generali di quesito prevalentemente adoperate per le prove di conoscenza: a
23 Cioè cosa deve fare lo studente per risolvere il problema posto dalla domanda.
scelta predefinita e a risposta scritta (tab. 5.3. p. 175). In generale i quesiti strutturati formulati con
modalità oggettiva pongono l’allievo di fronte a un’attività di soluzione di un problema (problem
solving). Nella scelta della forma di quesito migliore si dovrà quindi considerare:
• Il numero delle possibili risposte che si potrebbero fornire a un determinato problema;
• la capacità di quel quesito di discriminare tra chi sa risolvere e chi non sa risolvere quel
problema.
Le forme di quesiti da utilizzare nelle prove oggettive sono di quattro tipi:
QUESITI VERO/FALSO: sono i quesiti più semplici da costruire e presentano un’affermazione da
considerare vera o falsa;
QUESITI A SCELTA MULTIPLA: sono costituiti dal corpo della domanda, che corrisponde alla
posizione del problema, e da n alternative di risposta¸ che corrispondono alle proposte di soluzione
del problema posto. Una sola è la risposta, le altre risposte sono definite distrattori. I quesiti a scelta
multipla permettono di sondare diverse forme di ragionamento, a patto che nella loro costruzione si
considerino proprio queste differenti forme di ragionamento e non la scelta per esclusione;
QUESITI A COMPLETAMENTO: si costruiscono eliminando uno o più elementi da una fase o da
un testo, presentando questo testo “bucato” agli allievi e richiedendo loro di completarlo con gli
elementi mancanti.
Un particolare tipo di prova di completamento è quello di cloze-tests. Nel cloze (a differenza del
completamento) la cancellazione di parole avviene in forma sistematica (ad esempio una ogni 5 o
10 parole) e il testo è più lungo. Il lettore ricostruisce il significato della parola mancante aiutandosi
con il testo presente. Le diverse alternative di risposta sono formulate al termine del testo. Sono
prove utilizzate per la misura della leggibilità e della comprensione dei testi scritti. Per la correzione
si contano i buchi riempiti e il punteggio complessivo è in base alla percentuale sul totale dei buchi.
QUESITI A CORRISPONDENZA: si tratta di stabilire un collegamento, una corrispondenza tra
due o più serie/elenchi di dati. Si costruiscono due elenchi e si chiede di far corrispondere, di
mettere in relazione i due elenchi attraverso frecce o altre forme di corrispondenza.
Formulare i quesiti
Prima di affrontare la costruzione dei differenti tipi di quesiti è indispensabile sottolineare alcune
regole generali, valide a prescindere dal tipo di quesiti che si costruiranno. Queste avvertenze, e
relative giustificazioni servono a ricordare che l'uso delle prove oggettive non deve suscitare
ambiguità, altrimenti vengono a mancare i presupposti di validità, attendibilità e oggettività degli
strumenti di misurazione costruiti (vedi tab. 5.4. p. 179).
Le regole più importanti sono:
- usare un linguaggio semplice;
- stimoli brevi ed essenziali;
- non fare tranelli;
- non chiedere cose banali;
- i distrattori devono essere adeguati alle abilità degli studenti.
La somministrazione
Una volta terminata la costruzione della prova oggettiva, dovremmo verificarne l’idoneità
complessiva come strumento di misura. La prova migliore consiste nell’analizzare i risultati che un
gruppo di studenti offre a una prima somministrazione, che chiameremo di prova o pilota (try-out
test). La somministrazione finale dovrà rispettare una serie di condizioni e tener conto di
determinanti fattori. Alcuni elementi da considerare: (p. 184-185)
1. Gli studenti sono sufficientemente motivati allo svolgimento della prova?
Bisogna chiarire il fine in modo che gli studenti diano il giusto peso alla prova e trovino più
motivazione a fare da soli che a collaborare durante lo svolgimento;
2. Ci sono istruzioni predefinite (da leggere prima di sottoporsi alla prova)?
Non è obbligatorio ma se sono presenti devono essere chiare e concise;
3. In che modo si somministra?
Collettiva in classe? (qui gestione della classe obbligatoria) Solo a piccoli gruppi?
4. Il somministratore è l’insegnate di classe?
5. Il test è “carta e matita” o su computer?
6. I tempi sono chiari e rispettati da tutti?
Spesso il tempo aggiuntivo per il completamento è dannoso per
tutti. Quelli che ne fanno
richiesta talvolta lo usano per consultare i compagni, quelli che hanno finito lo sfruttano in
altre attività, magari disturbando. Il rispetto del tempo è un’altra garanzia dell’oggettività
della misura.
Dalla misurazione alla valutazione
Quando la verifica avviene per mezzo di prove strutturate (test), possiamo utilizzare i punteggi (cioè
i risultati) per attribuire i voti.
Per leggere, comprendere e interpretare i punteggi possiamo ricorrere a diversi metodi statistici. Il
presupposto è che i risultati siano delle misurazioni. I risultati a prove strutturate possono essere
interpretati rispetto a criteri (parliamo di riferimenti assoluti, in quanto definiamo la soglia che
delimita il raggiungimento di una prestazione – cut-off score) o a norme (il riferimento è relativo
alla distribuzione dei risultati). Una delle potenzialità delle prove struttura risiede proprio nella
possibilità di ricorrere a standard di riferimento o a norme statistiche.
Analisi dei quesiti
Prima di correggere i quesiti è necessario analizzarli. L’analisi dei quesiti si definisce Item analysis
serie di controlli di natura statistica che aiutano a determinare se e quanto i singoli quesiti
permettono di misurare con precisione.
Un primo controllo sui singoli quesiti è:
Calcolo dell’indice di facilita/difficolta: si basa sul presupposto che se un quesito è troppo facile,
al quale cioè rispondono bene quasi tutti, ci fornisce poche informazioni. Se, invece, è troppo
difficile, poche risposte giuste o troppe omissioni, allora è probabile che o è stato mal formulato
oppure richiede conoscenze e competenze troppo alte. Un buon quesito non dovrebbe essere troppo
difficile (valori superiori a 0,70), ne troppo facile (valori inferiori a 0,30). Dovrebbe avere difficoltà
media, compresa tra 0,30 e 0,70.24
Nc ( numero risposte corrette )
N ( numero studenti )
(Pc: proporzione di risposte corrette)
o Indice facilità (Pc)=
o Indice difficoltà (Ps)=
Ns ( numerorisposte corrette )
N ( numero studenti )
(Ps: proporzione di risposte sbagliate)
E poi il Calcolo della selettivita (o discriminativita), cioè della capacità dei quesiti di discriminare
tra chi va bene e chi no. Un buon quesito deve avere una discriminatività media compresa tra 0.20 e
0.40. La formula per calcolarlo è la seguente: (p. 188)
o Indice di discriminatività=
d=
IMP =
M−P
N
o o migliore/peggiore=




Esup − Einf
N
Esup o M (punteggio ottenuto dai soggetti all’estremo superiore/migliori)
Einf o P (punteggio ottenuto dai soggetti all’estremo inferiore/peggiori)
N (numero soggetti di un gruppo)
IMP (indice migliori/peggiori)
24 L'indice di facilità si calcola sulla singola domanda e non sulla prova, per questo il numero di studenti che
rispondono correttamente è uguale al numero di risposte esatte.
Punteggi e pesi nella correzione
Una volta controllato il test come strumento di misura, si procede al calcolo dei punteggi e
all'attribuzione dei voti. Va risolto pero il problema della “casualità” (quando gli studenti
rispondono a caso perche non sanno la risposta), che puo falsare il risultato del test (lo studente tira
a caso e azzecca). Per bilanciare questo limite ci sono almeno 2 possibilità:
1. Calcolo delle risposte giuste senza omissioni. Si dice agli studenti di non rispondere se non
sanno la risposta e che le risposte non date non vengono conteggiate (si fa la percentuale
delle risposte giuste sul totale delle risposte valide)25.
2. Pesatura delle risposte considerando la probabilità del caso. Si calcola la probabilità di
risposte date a caso e se ne tiene conto nella pesatura delle risposte.
Una formula per la pesatura della casualità26 è questa:
P = (E – S/n-1)K
P= punteggio con penalizzazione dell'errore
E= n. risposte esatte dello studente
S= n. risposte sbagliate
N= n. possibilità di risposta (scelta multipla=4/5, vero/falso=2)
K= peso attribuito a ciascun item.
Riguardo al peso da attribuire al tipo di quesito bisogna considerare il suo grado di difficoltà, si
possono adottare 2 metodi complementari:
- in funzione della tassonomia di obiettivi (in base all'importanza dell'obiettivo in una possibile
gerarchia);
- in funzione del numero di alternative possibili (più alternative = più peso alle risposte corrette).
Nelle prove del PISA27 sono stati previsti diversi tipi di quesiti, a risposta preformulata o aperta.
Quelli a risposta preformulata sono:
‒
a scelta multipla (4 o 5 alternative, una sola esatta);
‒
plurime a scelta multipla (v/f).
Quelli a risposta aperta sono:
‒
a risposta univoca (formulazione di una breve risposta che puo rientrare in una ristretta
gamma di possibilità oppure obbligata);
‒
a risposta breve (formulazione di una risposta breve che puo essere personalizzata);
‒
a risposta argomentata (si puo spaziare tra molte possibilità, possono richiedere anche
l'espressione di un giudizio personale).
Il punteggio che ricaviamo dalla fase di correzione, con o senza calcolo di penalizzazione, e con
25 Questo metodo è valido solo se le omissioni sono ben distribuite, ad esempio non va bene se uno studente risponde
solo a 1 domanda.
26 Nel libro è definita “penalizzazione dell'errore” (p. 189)
27 (Programme for International Students's Assessment).
l’eventuale pesatura dei quesiti, si chiama PUNTEGGIO GREZZO. Esso è la base quantitativa che
permette di analizzare l'andamento degli apprendimenti attraverso determinati confronti:
‒
dello studente nel tempo (confronto diacronico tra più prove);
‒
tra gli studenti contestualmente (confronto sincronico classe/gruppo);
‒
tra gruppi di studenti nel tempo (confronto diacronico classe/gruppo).
Uso di standard in una prova criteriale
Le prove criteriali permettono di distinguere chi ha raggiunto un certo livello di padronanza. Per
decidere a riguardo è necessario un criterio, che possiamo assumere come standard di riferimento.
Lo standard o livello soglia puo essere riferito alla:
‒
velocità di esecuzione;
‒
precisione nella prestazione;
‒
percentuale di quesiti risolti correttamente (che è il criterio più adottato).
Per la definizione di standard e prove criteriali la letteratura operativa rimanda all'esperienza sul
campo. Gronlund (1988) indica come procedura quella di «decidere arbitrariamente gli standard e
aggiustarli in alto o in basso a seconda del contesto» (a p. 193 Gronlund offre una serie di
suggerimenti per l'aggiustamento dello standard).
Descrizione e valutazione dei punteggi a una prova normativa
Un primo livello di lettura dei risultati a una prova strutturata consiste nella loro descrizione, cioè
nell'analisi della distribuzione dei punteggi grezzi. Davanti a una sequenza di nomi e punteggi c'è
bisogno di una lettura sintetica, che serve a capire come gli studenti sono andati, soprattutto rispetto
al gruppo, e al gruppo classe in generale.
Vediamo ora alcune misure utili alla lettura dei dati:
- gamma: differenza tra punteggio minimo e massimo, è un primo indicatore di ampiezza e
differenza tra i punteggi;
- graduatoria: è un elenco ordinato dei punteggi, con la frequenza dei singoli punteggi.
considerando che l'ampiezza dei gruppi di studenti puo essere diversa, è preferibile convertire i
punteggi grezzi in e la graduatoria in ranghi percentili.
- ranghi percentili: indicano la posizione di ogni studente in un gruppo in termini di percentuale di
studenti che ottengono un punteggio inferiore o uguale a esso. Per convertire il punteggio grezzo si
utilizza questa formula:
rango percentile =
n. stud. con punteggio più basso + n. stud. con stesso punteggio
N studenti del gruppo
I ranghi percentili esprimono la percentuale di studenti con punteggio inferiore a un certo livello e
non la percentuale di quesiti risposti correttamente. La distribuzione dei ranghi è sempre relativa al
gruppo considerato.
Per sintetizzare ulteriormente le posizioni della graduatoria si possono raggruppare in fasce.
- media: da considerare per avere indicazioni più precise sull'andamento complessivo dei punteggi,
rileva quanti studenti sono al di sotto o al di sopra di questo valore. Confrontando media aritmetica
e massimo teorico si verifica la percentuale media di facilita alla prova, utile punto di riferimento
quando si è definita una soglia di accettabilità, cioè quando si adotta un criterio di confronto
assoluto.
Considerando pero che alcuni valori possono essere molto distanti dalla media, c'è bisogno di un
indice che indichi la variabilità rispetto alla media, cioè quanto i risultati si discostano da quel
valore. Questo dato si ottiene con il calcolo della deviazione standard.
- deviazione standard: indica la dispersione dei punteggi intorno alla media, per ottenerlo si calcola
la distanza tra ogni valore e il valore medio, con la formula a p. 199 (era troppo difficile da
scrivere!)
Con i valori di media e deviazione standard si puo valutare l'andamento complessivo di un gruppo
di studenti. La media permette di controllare i risultati complessivi; la dispersione, indicando
l'omogeneità del gruppo, fornisce un criterio sintetico della variabilità al suo interno. I punteggi
possono considerarsi omogenei quando la deviazione standard è contenuta nel 15-20% della media.
Standardizzazione dei punteggi
I punteggi riportati da uno studente diventano significativi se possono essere confrontati:
- con altre prove dello stesso studente (non si puo usare il punteggio grezzo)
- con prove di altri studenti dello stesso gruppo
- con altri gruppi di riferimento (cioè con una possibile norma; qui è necessario conoscere la
distribuzione dei punteggi a quel test su un campione normale28).
Per confrontare con punteggi precedenti e con punteggi rappresentativi, c'è bisogno dei punteggi
standardizzati, cioè della trasformazione dei punteggi grezzi in punteggi che esprimano la distanza
del singolo punteggio dalla media. I punti standardizzati più conosciuti sono i punti Z e i punti T.
(sono uguali, solo che la trasformazione in punti T, aggiungendo una costante a tutti i punteggi,
esprime tutti valori positivi).
28 Cfr. curva di Gauss e distribuzione normale, fig. 5.11 p. 204).
Punti Z standardizzati  Zi= xi – xm/σ
Punti T standardizzati  Ti= 50+10 Zi
xi= punteggio grezzo
xm= punteggio medio
σ= deviazione standard
Quando si vuole comparare i risultati dei singoli con quelli di campioni rappresentativi il confronto
è con lo standard di riferimento (definito da processi di standardizzazione dei punteggi su gruppi
rappresentativi).
Le prove di classe, dopo opportune messe a punto, possono essere precisi strumenti di misura. Per
procedere alla standardizzazione di una prova è necessario eseguire queste operazioni:
- somministrare la prova a un gruppo di studenti (try-out, pilot study);
- correggere e analizzare le domande (scartare/migliorare);
- somministrare la prova a un campione rappresentativo (try-out, main study);
- analizzare distribuzione dei punteggi e individuare il criterio di riferimento;
- mettere a punto un manuale per successive somministrazioni e analisi dei risultati.
Dai punteggi ai voti: alcune trasformazioni
Spesso c'è bisogno di trasformare i punteggi a una prova strutturata in valutazioni.
In alcuni casi, quando è frequente l'uso congiunto di più test anche di tipo diverso, si ricorre a
rappresentazioni grafiche, chiamate “profili”.
Un sistema per generalizzare i punteggi a un'unica prova è quello di riportarli a fasce di livello, in
modo da avere contenitori di punteggi che tengano conto dell'andamento medio e della variabilità
dei punteggi, e che ne permettano la trasformazione in scale conosciute e accettate.
La più conosciuta è la distribuzione pentenaria: utilizzando intervalli di punteggio pari a una
deviazione standard (1σ) si distribuiscono i punteggi rilevati con la prova strutturata in 5 fasce di
livello (E, D, C, B, A), con la fascia C che raccoglie i punteggi intorno alla media.
La distribuzione pentenaria permette di dividere i punteggi e compararli rispetto a una distribuzione
teorica normale (come curva di Gauss). Il confronto delle percentuali dei punteggi di una classe con
quelle indicate dalla distribuzione normale, indica se la situazione di apprendimento è casuale o si
discosta da esse e in quale direzione.
L'esito finale di una didattica efficace è una distribuzione di punteggi che vede la gran parte degli
allievi raggiungere punteggi positivi. La distribuzione pentenaria permette di attribuire voti su una
scala a cinque valori.
Confrontare i risultati degli studenti con una distribuzione “normale” puo essere molto significativo
se si utilizzano strumenti standardizzati a livello nazionale (o internazionale), perche offrono la
possibilità di paragonarsi a uno standard (es. prove IEA), anche se questa pratica non rientra nella
prassi quotidiana della didattica, dove spesso (soprattutto alle superiori) si preferisce utilizzare i
risultati delle prove strutturate per attribuire voti in decimi.
In questo caso Gattullo (1968) ipotizza una trasformazione dei punteggi con una formula che tenga
conto della distribuzione dei voti e dei punteggi. Si assume quindi come media=6 e come
deviazione standard=1, secondo questa formula:
Voto in decimi: 6= X – M/σ
CAPITOLO 6
ALTRE FORME DI RILEVAZIONE
Le misurazioni degli apprendimenti condotte con i test permettono di comparare e di stabilire
graduatorie. I punteggi a quelle prove offrono, infatti, la possibilità di rapportare i risultati degli
studenti rispetto alla media della classe o di gruppi più ampi. In alcuni casi la comparazione è
addirittura con campioni rappresentativi di livello e quindi con standard di riferimento. Inoltre, da
sempre nella scuola e nel mondo formativo in genere, oltre alla logica comparativa e di graduatorie
si ricorre al confronto tra una determinata prestazione individuale dell’allievo e determinati criteri
di padronanza o di adeguatezza di una data competenza. Per verificare ad esempio l’abilità di una
allievo nella scrittura di un determinato tipo di testo, lo si sottopone a un compito di produzione
scritta specifica e successivamente si valuta la sua prestazione con un modello di adeguatezza di
quel tipo di scrittura.
Valutazione contestualizzata e alternativa ai test
Dagli anni novanta in Italia ma precedentemente in molti altri paesi, il dibattito sulle misurazioni e
verifiche scolastiche ha sviluppato numerose critiche alle forme strutturate del testing poiche
quest’ultimo risulta scarsamente rilevante per la vita extrascolastica (idea atomistica). Per esempio,
l’idea che attraverso un campione di domande a scena multipla si possano accertare determinate
competenze è entrata in crisi. Rilevazioni più contestualizzate, che richiedono compiti in situazioni
realistiche sono risultate più funzionali.
SuI piano teorico ed epistemologico Howard Gardner ha fornito diversi spunti sulle prove “aperte”
su forme di verifiche più contestualizzate e sull’esigenza in generale di pensare a forme di
educazione e a modalità di valutazione diverse, più vicine all’apprendistato che al tradizionale
contesto scolastico. L’idea è quella di pensare ai contesti scolastici come luoghi di formazione nei
quali la trasmissione di conoscenze lasci spazio, gradualmente e progressivamente, a forme di cocostruzione delle conoscenze, all’acquisizione di competenze, allo sviluppo delle diverse
intelligenze.
I voti riguarderanno abilità e processi che richiedono di integrare conoscenze, fare, costruire,
sviluppare prodotti. E nella valutazione di questi processi si dovranno considerare le dimensioni
“esecuzione” e “prodotto”.
Questioni docimologiche:
1. Come descrivere e rilevare il processo (forme di svolgimento del compito)?
2. Come misurare gli aspetti del prodotto?
Metodi osservativi e indicatori
L’uso di indicatori
L’indicatore è un elemento o variabile significativa e centrale per l’analisi o classificazione di un
fenomeno. In molte delle occasioni di verifica e di esercitazione scolastica degli apprendimenti
ricorriamo all’uso di indicatori (liste di controllo, scale di valutazione).
Da un punto di vista docimologico le domande che ci porremo sono:
• Come si individuano gli indicatori? Sono essi validi rispetto all’insieme che vogliamo
valutare?
• Gli indicatori prescelti permettono di raggiungere un accordo nella misurazione da parte di
più valutatori? C’è affidabilità nelle misurazioni?
Inoltre quando ci troviamo a mettere a punto schede con indicatori dobbiamo considerare anche i
seguenti problemi docimologici:
• Definire l’ampiezza/costrutto dell’abilità da valutare
• Selezionare o campionare gli indicatori possibili
• Stabilire l’ampiezza e ripartizione della scala di punteggi o voti da considerare
• Prevedere l’uso di aggettivi o espressioni per marcare le singole fasce dei valori di
scala (descrittori)
• Utilizzare collegialmente le schede per addestrarsi al loro uso misurativo: l’unico modo per
verificare il grado di precisione e affidabilità nella misura raggiungibile dalle schede con
indicatori è la sperimentazione sul campo; il controllo dell’affidabilità consiste nell’accertare
il grado di accordo che si raggiunge nell’uso autonomo da parte di più valutatori. La formula
per calcolare l’indice di accordo nell’osservazione e rilevazione con indicatori è questa
(Braga, Tosi, 1995):

Indice di accordo =
100 x ACCORDI
ACCORDI + DISACCORDI
Si ritiene soddisfacente un accordo superiore all'80% tra due correttori valutatori.
Osservazioni sistematiche
L’osservazione sistematica è lo strumento preferenziale quando vogliamo verificare l’acquisizione
di determinate abilità procedurali e rivolgiamo la nostra attenzione a prove pratiche.
Gli indicatori, nelle forme di liste di controllo o di scale di valutazione, offrono la possibilità di
raggiungere un alto grado di accordo tra osservatori indipendenti. Si tratta di un metodo di analisi
qualitativa che, almeno per il primo ciclo della scuola dell'obbligo, sembra aver soppiantato i
procedimenti misurativi tradizionali. Questo per due motivi fondamentali:
- l'osservazione e' collegata alla comprensione, mentre la misurazione al giudizio e percio appare
uno strumento più utile;
- l'osservazione permette di raggiungere uno degli obiettivi prioritari della scuola: quello di
promuovere i processi, sostenerli e rinforzarli.
L'osservazione sistematica è una metodologia rigorosa che porta alla produzione di una
documentazione utile sia ai fini autovalutativi (lo studente puo accedervi e monitorare i propri
progressi), sia come testimonianza del lavoro svolto all'interno della scuola.
L'oggetto dell'analisi è il comportamento dei soggetti che apprendono, osservato nello svolgimento
delle attività didattiche, la valutazione entra percio nel processo di insegnamento-apprendimento,
smette di essere la parte conclusiva del percorso didattico e si inserisce nella costruzione e nella
applicazione degli interventi formativi.
Principali distorsioni: - gli studenti sono consapevoli di essere osservati e possono modificare il loro
(vedi tab. 6.5. p. 223) comportamento;
- i docenti osservatori possono nutrire delle aspettative e interpretare
soggettivamente i risultati.
Dimensioni da tenere sotto controllo
Occorre poter controllare le diverse dimensioni che entrano in gioco nelle osservazioni strutturate.
Le dimensioni da tenere sotto controllo sono: le eventuali istruzioni assegnate che regolano la
prestazione che si sottopone a rilevazione, la chiarezza negli indicatori che guidano l’osservazione29,
la forma di registrazione, la figura e l’interferenza dell’osservatore (Fig. 6.1 p. 223).
La definizione di descrittori di apprendimento permette di verificare l’avvenuto conseguimento di
traguardi formativi minimi, parziali, intermedi, necessari e/o propedeutici. Sono quindi strumento
di rilevazione di comportamenti e competenze. Ciascuna descrizione diviene cosi il criterio con il
quale confrontare le singole prestazioni sollecitate negli allievi, per stabilire l’adeguatezza di
ciascuna di esse rispetto al criterio stesso (Domenici, 1981).
Per la registrazione delle osservazioni (e successivamente la valutazione delle procedure) si ricorre
alle seguenti tecniche di osservazione:
-
forme descrittive aperte (brevi episodi);
-
liste di controllo o griglie di osservazione (check-lists);
29 cioè cosa mettere a fuoco con l’osservazione; determina fortemente il grado di validità e di affidabilità di tutta la
procedura. Quanto più l’indicatore è esplicitato in termini di descrittori da sottoporre a osservazione, tanto più il
grado di precisione e l’affidabilità nella rilevazione è accurato.
-
scale di valutazione (rating-scales).
Addestrarsi alla costruzione di strumenti osservativi
Le fasi che il gruppo di valutazione (gli osservatori) dovrà seguire per l’addestramento all’uso di
sistemi e osservazioni sistematiche sono:
• raggiungere un iniziale accordo sulle finalità dell’osservazione;
• identificare gli indicatori da utilizzare e un sistema di codifica;
• costruire insieme lo strumento per la rilevazione;
• verificare l’accordo intersoggettivo nell’uso dello strumento ed eventualmente revisionare
indicatori e sistema di codifica.
Descrittori e rilevazione delle competenze
Mentre gli indicatori indicano gli elementi o dimensioni fondamentali (macroscopici, molari) da
considerare nella valutazione, i descrittori offrono una loro esplicitazione, vale a dire una
descrizione analitica dei comportamenti distintivi di un determinato processo o fenomeno.
La lista di descrittori esemplificata (tab. 6.7. p. 230) è stata costruita in ambito scolastico da
insegnanti di scuola elementare (Domenici, 1981). Essa è relativa all’apprendimento della
matematica ed è stata utilizzata in riferimento a determinate prove di verifica, in ingresso e in uscita
delle classi. In pratica, per compilare una scheda di questo tipo è necessario impostare le verifiche
di tipo strutturato e/o con prove semistrutturate elaborate in rapporto ai descrittori della lista. Qui i
descrittori sono criteri-guida per impostare le verifiche e non elementi di osservazione diretta.
L’elaborazione dei descrittori
Nella costruzione di liste di descrittori per la valutazione di una determinata competenza o di un
livello di prestazioni si possono sostanzialmente seguire 2 strade: partire dalla definizione teorica
delle dimensioni fondamentali, o da esempi di prestazioni rilevate su campioni rappresentativi. Per
la costruzione e attribuzione dei diversi descrittori ai singoli livelli sono stati infatti considerati i
vari metodi esistenti: intuitivi, qualitativi e quantitativi.
METODI INTUITIVI: l’approccio è legato all’esperienza di singoli esperti del settore o della
competenza da considerare, o di commissioni incaricate di elaborare ed eventualmente sperimentare
le scale costruite. Pertanto i docenti possono preparare singolarmente le liste di descrittori,
basandosi sulla propria esperienza o confrontandosi con quella degli altri.
METODI QUALITATIVI: in questo caso si procede prima a una raccolta sistematica di dati per
definire cio che si vuole valutare. Successivamente, si cerca di campionare i diversi descrittori
rispetto alle prestazioni e si procede quindi a confronti di merito, a interpretazioni.
METODI QUANTITATIVI: l’osservazione e l’interpretazione dei descrittori avviene attraverso
l’analisi statistica. Le tecniche sono molteplici e particolarmente sofisticate (analisi discriminate,
scaglionamento multidimensionale, modello di Rasch). sostanzialmente i descrittori sono assunti
come item e si esaminano i modi in cui gli insegnanti li mettono in scala e li calibrano.
Per una valida e affidabile definizione di criteri:
- la descrizione delle abilità deve essere condivisa collegialmente;
- i descrittori devono essere campioni significativi delle abilità;
- rilevazione e misurazione devono poggiare su verifiche coerenti e significative;
- il giudizio deve essere coerente con l'uso dei descrittori.
La valutazione dell’orale: modalita di conduzione e griglie
Mentre nelle prove strutturate e nelle richieste di produzione scritta è possibile eliminare il ruolo
dell’esaminatore, nei colloqui è necessario stabilire i suoi limiti e le modalità di intervento. Per
utilizzare le interrogazioni e i colloqui come prove di verifica e controllare l’affidabilità e validità di
misura risulta importante preparare il contesto della prova e gestirlo coerentemente agli obiettivi
della valutazione desiderata. Prepararsi a un'interrogazione, e al colloquio pluridisciplinare,
riguarderà certo gli studenti, ma anche i docenti. In ogni caso il vantaggio che una prova orale ha
nei confronti di prove oggettive di profitto è che permette di ottenere risposte dirette.
Per le prove orali descrittori e criteri sono estremamente utili. I docenti devono mettere a punto una
competenza interrogativa (vedi decalogo di Domenici a p. 233).
Per la valutazione di prove orali vi sono diversi tipi di griglie costruite in funzione della valutazione
e del destinatario.
Le categorie devono essere coerenti con le funzioni: - valutazione linguistico-comunicativa;
- capacità di interazione in piccolo gruppo;
- rilevazione dello studio autonomo.
La correzione di elaborati scritti attraverso dimensioni/tratti
Quando vogliamo valutare forme di scrittura quali lettere, narrazioni, riassunti, abbiamo bisogno di
procedure di correzione e valutazione più sofisticate. A differenza dei quesiti strutturati (che offrono
risposte predefinite da scegliere all’interno di un elenco fornito) con i quesiti a risposta scritta e con
le prove di scrittura ci troviamo di fronte a strumenti semistrutturati che invitano alla produzione
originale delle risposte. Questo tipo di prove permette di attivare abilità produttive in forma diretta.
I problemi che si Incontrano nell’uso dei quesiti scritti e prove di scrittura sono sostanzialmente
legati all’affidabilità della misura, cioè alla loro correzione e precisione nell’attribuzione di
punteggi o valutazioni.
Istruzioni, dimensioni e criteri
Un primo elemento di distorsione docimologica riguarda la formulazione delle istruzioni o tracce
che si forniscono per le produzioni scritte. È indispensabile che lo stimolo sia strutturato, nel senso
di uguale e preciso per tutti. A tal fine è indispensabile stabi1ire chiaramente il tema o compito
richiesto. Nell’indagine IEA-IPS le istruzioni relative alle diverse prove di scrittura chiarivano le
coordinate centrali da utilizzare per la valutazione di tratti:
-
lo scopo (perche si deve scrivere);
-
il destinatario (a chi si scrive);
-
il contenuto (che cosa si deve scrivere);
-
il tipo di testo (in che modo si deve scrivere);
-
il tempo/spazio a disposizione.
Una volta costruite prove o quesiti con chiare indicazioni per la loro correzione e analisi. Occorre
individuare i criteri in base ai quali procedere alla valutazione. Nel caso dell’indagine internazionale
sono stati utilizzati due livelli o modalità:
- La valutazione globale (olistica): è quella più vicina alla valutazione soggettiva, in -quanto si basa
su una prima impressione che considera tutte le caratteristiche della prova;
- La valutazione analitica (per tratti o dimensioni): è quella che. Individua specifici aspetti da
considerare e cerca il più possibile di mettere il correttore nelle condizioni di misurare in modo
rigoroso la prestazione, attraverso indicazioni e descrizioni specifiche.
Addestrarsi alla correzione collegiale
Il problema dell’affidabilità è forse il principale problema docimologico nella valutazione degli
elaborati scritti. Dopo aver ideato una buona prova di scrittura, cioè significativa, valida in
riferimento agli obiettivi prefissati e motivante per la scrittura degli studenti, e aver definito i criteri
in base ai quali procedere alla valutazione fornendo in caso descrittori o esemplificazioni da
seguire, resta il problema di riuscire ad attribuire valori numerici (voti/punteggi) su una scala
prefissata con sufficiente precisione e in una prospettiva di oggettività. Senza un opportuno piano di
addestramento e formazione dei correttori si rischia quindi di mantenere le differenze di giudizio.
Per preparare una sessione di formazione dei correttori allo scopo di incrementare l’affidabilità
nella valutazione di prove scritte, le diverse fasi di addestramento devono prevedere i seguenti
livelli di intervento:
1. Preparare un manuale di valutazione o in ogni caso una raccolta di indicazioni
(indicatori/descrittori/criteri) da utilizzare nelle diverse fasi della formazione. Necessario
individuare per ogni tipologia di prova alcuni elaborati modello (benchmark composition);
2. Nel caso di un ampio numero di correttori, organizzare un momento iniziale e plenario per
condividere le finalità e modalità di lavoro in piccoli gruppi e individuale;
3. Predisporre piccoli gruppi di lavoro (4-6) con conduttore/moderatore, da sviluppare secondo
la seguente metodologia di lavoro:
◦ Leggere individualmente e discutere le indicazioni riportate nel manuale o schede di
lavoro;
◦ Valutare individualmente una prova –modello con un tempo prestabilito e utilizzando la
stessa griglia di correzione;
◦ Riportare su un cartellone i valori espressi da ciascun membro del gruppo e stimolare la
discussione sugli scarti o divergenze più evidenti su una dimensione;
◦ Discutere tutti i valori del gruppo riportati sul cartellone, in modo da modificare i punti
di vista, rivedendo eventualmente i propri punteggi;
◦ Chiarire che le discussioni, tranne eccezioni, dovranno proseguire sino al
raggiungimento almeno del “consenso” nella valutazione;
◦ Ripetere le fasi precedenti in almeno due diverse sedute per ogni tipologia di scrittura da
correggere;
◦ Far esercitare autonomamente (tra una seduta e l'altra) i singoli correttori su altri
elaborati.
Quando non c'è la possibilità di progettare e svolgere un piano di addestramento, il controllo delle
distorsioni valutative dovrebbe almeno prevedere la più chiara definizione della scala di misura e
degli indicatori che specificano cosa valutare e relativi descrittori.
Le mappe concettuali
Le mappe concettuali sono state proposte all’inizio degli anni ’60 presso la Cornell University dal
Prof. Joseph Novak, come strumenti per evidenziare i concetti principali e i rispettivi legami
all’interno di un argomento. La mappa concettuale fornisce una specie di percorso, visualizza le
strade che si possono prendere per collegare i concetti di una proposizione.
Il diagramma a V di Gowin
l diagramma a "V" di Gowin è uno strumento che aiuta lo studente a organizzare il proprio pensiero
e a scoprire la struttura e il significato della conoscenza che egli cerca di acquisire, schematizzando
la produzione di conoscenze in situazioni pratiche.
Gowin sperimento negli anni 70 una rappresentazione schematica, il diagramma a V, utile a
riflettere sulla natura della conoscenza e sul processo di una sua costruzione.
Come si costruisce un diagramma a V?
All’interno si riportano le domande focali, cioè i problemi intorno ai quali si svolge l’indagine, alla
punta si registra il fenomeno che si sta analizzando, sul lato sinistro (versante teorico-concettuale) ci
si interroga sui principi, le strutture concettuali alla base del fenomeno studiato, e sul lato destro
(versante metodologico) si riportano le asserzioni di conoscenza, le interpretazioni alla luce delle
elaborazioni e registrazioni condotte.
Tra i due versanti deve esistere un’interazioni attiva, tipica dell’indagine e scientifica.
Diagramma a
V di Gowin
Portfolio e valutazione delle competenze
Una delle prime definizioni di portfolio è quella di Arter e Spandel (1992): Una raccolta
significativa dei lavori di uno studente che testimonia la storia degli sforzi, dei progressi e dei
risultati raggiunti in una o più aree.30
A scuola, il Portfolio è la cartella che contiene una selezione delle diverse prove svolte dagli allievi
nel percorso formativo, allestita secondo criteri specifici.
Più che uno strumento di valutazione in senso stretto, il portfolio è una modalità di raccolta di
30 La definizione prosegue cosi: «Tale raccolta richiede la partecipazione attiva dello studente nella scelta del
contenuto del portfolio; indicazioni utilizzate per la selezione dei contenuti, criteri di giudizio adottati e indicazioni
che testimonino l'autoriflessione da parte dello studente sul proprio lavoro.»
informazioni utile alla valutazione delle competenze, della loro formazione e cambiamento nel
tempo. Assolve a una doppia funzione: valutativa e orientativa e favorisce processi di
autovalutazione da parte dello studente.
Il portfolio non va quindi inteso come forma di accertamento o di misurazione singola, ma come
forma di valutazione integrata che riprende le principali caratteristiche della valutazione definita
“autentica”:
a. Si riferisce al programma d’istruzione condotto in classe. Agli allievi vengono poste
domande significative e problemi rilevanti per le loro esperienze di apprendimento;
b. Ha a disposizione testimonianze provenienti da una molteplicità di attività e prestazioni e
diversi punti di vista;
c. È legato ad attività motivanti di insegnamento-apprendimento in modo da stimolare
l’insegnante e gli allievi a fare meglio, in quanto si tratta soprattutto di autovalutazione e
autoriflessione;
d. Riflette gli standard della classe e non si riferisce a una norma.
Tra le diverse forme che puo assumere:

Portfolio di lavoro (showcase portfolios): Raccoglie i lavori fatti relativamente alle
specifiche competenze;

Portfolio di presentazione (collections portfolios): presenta i lavori migliori e si modifica in
funzione dei destinatari;

Portfolio di valutazione (assessment portfolios): documenta il percorso formativo e raccoglie
i lavori e le relative riflessioni fornite dagli studenti. Manifesta il raggiungimento della
competenza nel tempo.
Un portfolio, come raccolta e testimonianza di lavori svolti per attestare e permettere di valutare,
non solo singole prestazioni ma anche l’ evoluzione e lo sviluppo nel tempo in termini di livelli di
competenze, deve rispettare alcuni assunti docimologici per essere valido e affidabile nella
costruzione di giudizi e attribuzione di misure.
Per progettare un portfolio di valutazione, Pellerey (2000) indica otto punti da considerare:
1. Determinare gli obiettivi formativi (da evidenziare nel portfolio).
2. Stabilire il tipo di decisione da prendere sulla base del portfolio (progresso/passaggio di
livello).
3. Progettare adeguatamente attività e prove da assegnare agli studenti per raggiungere gli
obiettivi.
4.
Definire i criteri e stabilire gli standard di riferimento per ogni criterio.
5. Stabilire chi valuterà i pezzi che compongono il portfolio (interni/esterni)
6. Formare adeguatamente formatori e valutatori sulle modalità di giudizio.
7. Insegnare gli argomenti del programma, dare valutazioni da raccogliere nei portfolii,
assegnare un giudizio.
8. Secondo le modalità del pt. 2 prendere decisioni basate sulla valutazione dei portfolii.
Il rispetto dei singoli punti permetterà di considerare la validità in termini di rappresentatività dei
prodotti rispetto al dominio della competenza in esame e l'affidabilità interpretata come grado di
accordo sui criteri considerati.
La valutazione delle prestazioni attraverso portfolio è stata definita per principio più valida di quella
fatta attraverso un test carta e penna, in quanto più autentica.