METTERE I VOTI A SCUOLA Introduzione alla docimologia Di Guido Benvenuto INTRODUZIONE Finalità dei voti: • Fornire agli studenti un feedback sui progressi; • Misurare gli apprendimenti; • Fornire indicatori di efficacia dell’apprendimento; • Regolare e adeguare i processi didattici. Quando parliamo di voti intendiamo almeno due sistemi di valutazione: il voto come valore numerico al termine di una singola prova o rilevazione, e il voto come sintesi e raccolta di più valutazioni. Entrambi richiamano il significato di voto come giudizio relativo. E se un voto di profitto è una valutazione, per un giudizio di merito espresso in relazione al grado di preparazione e di rendimento di uno studente (Battaglia 1), si tratta di intendersi sul tipo di scala da usare nella comparazione. CAPITOLO 1 LA FORMAZIONE DI UNA COMPETENZA DOCIMOLOGICA Un quadro d’insieme La docimologia è una disciplina che è nata per poter studiare su basi scientifiche i criteri della valutazione scolastica. Si parte da una critica degli esami. Poi si comincia a riflettere non soltanto sull’esame e a ragionare in termini di sistemi educativi. L’accento si sposta dagli alunni che apprendono agli insegnanti. “non si educa mai direttamente ma indirettamente per mezzo dell’ambiente”. 1. Quali strumenti utilizzare per la verifica degli apprendimenti e negli esami? 2. Come attribuire i voti o i giudizi e come registrarli? 3. Come distribuire le prove di verifica nell’arco della didattica annuale? 4. In che modo comunicare i risultati delle prove agli studenti e all’esterno della classe? Ogni docente tutte le volte che si trova a mettere voti e a valutare, dovrebbe controllare 4 1 Grande dizionario della lingua italiana, UTET, 1991-2002. dimensioni di riferimento: (tab. 1.1. p. 22 libro) 1. Funzioni della valutazione : Perche sto valutando Quali gli obiettivi? 2. Tempi didattici: Quando sviluppare le forme di verifica? Ingresso, itinere o finale? 3. Forme/strumenti: Quali stimoli e tipologie di prove adoperare? Strutturate, semi-strutturate, aperte? Come raccogliere nel tempo le testimonianze di prove? 4. Livelli di misura: Quale precisione nella misurazione? Scale nominali, ordinali, a intervallo? Ogni qualvolta si utilizzano le diverse modalità di verifica (punto 3) esse si scelgono in relazione allo scopo che si vuole raggiungere (punto 1) e del tempo della didattica nel quale ci si trova (punto 2). La competenza docimologica dei docenti Il mettere i voti diventa decisamente il saper adoperare diversi sistemi di rilevazione e di misurazione in funzione dei diversi livelli della valutazione scolastica. Un docente competente dal punto di vista docimologico dovrà disporre di adeguati strumenti, teorici e pratici, per affrontare e gestire le diverse questioni. La messa a punto di una competenza docimologica per i docenti, da un punto di vista sia individuale sia collegiale, prevede un bagaglio esperienziale legato a: - Distinzione, ma stretta correlazione, tra l’uso di strumenti di verifica e le funzioni della valutazione; - Raccolta differenziata delle informazioni necessarie alla valutazione; - Conoscenza e applicazione delle principali tecniche di costruzione di test; - Diffusione e utilizzazione degli strumenti alternativi al testing; - Individuazione e controllo della validità e affidabilità delle diverse misure degli apprendimenti scolastici; - Attribuzione dei punteggi (voti), formulazione di giudizi (valutazioni analitiche e sintetiche) e loro restituzione e comunicazione; - Riflessione sulla problematicità del mettere i voti a scuola e nei diversi contesti formativi, in termini di equità. Un voto, un giudizio, hanno senso e significato solo se contribuiscono a chiarire dal punto di vista valutativo la situazione degli apprendimenti conseguiti e a indicare le modalità per migliorarla. Tra le condizioni necessarie per incrementare e diffondere la cultura della valutazione e la sensibilità pedagogica vi sono: a. Il miglioramento delle competenze dei docenti nell’allestire e gestire le forme di verifica e di valutazione funzionali e coerenti con il sistema e contesto nel quale si trovano ad operare; b. Il sostegno da parte di centri di ricerca nella produzione di materiali utili alla valutazione nelle sue diverse funzioni. La competenza docimologica di un docente deve essere sapientemente dosata e calibrata a seconda del contesto complessivo nel quale si trova a operare. Il saper adoperare le tecniche misurative adattandole al contesto è frutto dell’esperienza che ognuno conduce individualmente ma che va sottoposta a riflessione e confronto collegiale. Decidere se è meglio procedere con una prova strutturata o con una interrogazione oppure adottare un sistema di misura più semplificato di un altro sono esempi di situazioni problematiche da risolvere coniugando la padronanza delle diverse tecniche con atteggiamenti e comportanti che ne rafforzino l’intento. Spesso è proprio in assenza di tecniche comuni, e di metodologie condivise, che la soggettività prevale a scapito dell’equità e della precisione nella valutazione e le esperienze personali rischiano spesso di non essere valorizzate proprio in mancanza di regole condivise e comuni. CAPITOLO 2 NASCITA E SVILUPPI DELLA DOCIMOLOGIA Etimologia e definizioni L’etimologia del termine docimologia, proposto nei primi anni ’30 da Henri Pieron, è rintracciabile in alcuni vocaboli greci che rimandano al contesto dell’esaminare inteso in senso ampio. Da un lato abbiamo infatti il significato di prova o di esame, dall’altro, con il termine logos (discorso, ma anche riflessione scientifica) si aggiunge lo spessore di studio e contesto di riflessione sull’esaminare. L’accezione iniziale per docimologia è quindi quella di studio destinato alla critica e al miglioramento delle votazioni scolastiche. Nei primi studi il termine aveva, a ben vedere, un carattere negativo criticando i sistemi di votazione e dimostrando la mancanza di fedeltà e di validità agli esami. Nel tempo il campo semantico si è allargato, includendo l’analisi dei comportamenti di chi esamina, prevalentemente l’insegnante, e di chi è esaminato, sostanzialmente lo studente. Nel 1971 De Landsheere definisce la docimologia scienza che ha per oggetto lo studio sistematico degli esami, in particolare dei sistemi di votazione e del comportamento degli esaminatori e degli esaminati. Giovannini (1995), citando de Landsheere, precisa che la docimologia dovrebbe concernere anche gli insegnanti, gli istituti, il sistema scolastico. De Ketele (1982) tra i diversi sensi da riconoscere al termine docimologie indica la disciplina che ha per oggetto lo studio dei sistemi di valutazione in educazione. La docimologia, quindi, da un iniziale carattere di critica dei voti assume una valenza sempre più costruttiva, in quanto riflessione o risposta scientifica per contrastare la personalizzazione nella valutazione scolastica. Dai primi studi ai recenti campi di interesse L’esigenza di studiare e correggere alcune disfunzioni nelle valutazioni di esame nel ‘900 nasce dai sensibili cambiamenti nei sistemi scolastici che si svilupparono in Europa ad inizio del secolo. Le tematiche docimologiche sono strettamente collegate all’aumento della richiesta di formazione, al crescere della scuola di massa che, come vedremo, dagli anni ’60 in poi (in Italia) incomincia a richiedere forme di valutazione più oggettive e diverse modalità di accertamento del rendimento scolastico. La problematica della valutazione in contesti di esame era talmente avvertita in ambito psicologico e pedagogico da essere presente in due delle 15 tesi della scuola attiva che Claparede enuncio al Congresso di igiene mentale nel giugno del 1922 a Parigi. Egli sosteneva che gli esami avrebbero dovuto essere soppressi, e sostituiti da una valutazione data in base ai lavori individuali fatti durante l’anno, oppure per mezzo di studi adeguati. Per di più, la psicologia sperimentale è in grado di fornire alla pedagogia pratica dei metodi adatti al controllo del valore dei metodi didattici e del rendimento scolastico. Il dibattito sull’uso o rifiuto dei test a scuola nasce proprio dalla consapevolezza che molte verifiche scolastiche non presentano sufficiente rispetto della validità e affidabilità nell’esaminare. Nel 1922, Pieron compi la prima ricerca docimologica francese sugli esami di licenza elementare. Studio la correlazione tra i risultati a 6 test per misurare le varie funzioni e le valutazioni assegnate a 117 studenti nelle loro prove di esame. Le correlazioni tra i test e le valutazioni risultarono basse. Successivamente Laugier e Weinberg intrapresero una ricerca sulla fedeltà delle valutazioni per studiare l’affidabilità in caso di ripetizioni dell’esame o di correzioni. I risultati raccolti da Pieron evidenziarono le divergenze di giudizio esistenti tra i diversi correttori e le differenze nella valutazione. Cio dimostra che quando correggiamo si presentano diversi elementi di distorsione: ciascun valutatore è sensibile ad alcune caratteristiche delle prove, mentre tende a trascurarne altre. Altri studi furono sviluppati negli anni a seguire, e non solo in Francia, a evidenziare l’interesse generale per la problematica sollevata e negli anni 70 si inizio a riflettere sulle tematiche docimologiche. Nel 1971 De Landsheere con un celebre testo riprese il termine Docimologia per indicare la scienza che ha per oggetto lo studio sistematico degli esami, in particolare dei sistemi di votazione e del comportamento degli esaminatori e degli esaminati. Il suo obiettivo era non di eliminare ma di contenere la soggettività presente nella valutazione esami ovvero era necessario dotare i docenti degli strumenti che affiancassero l’osservazione continua. Bacher invece cerco di perfezionare gli esami esterni tradizionali e utilizzo prove normalizzate. Entrambi gli studiosi vollero migliorare le tecniche di accertamento sia per gli esami finali che per le prove di verifica e mettere a punto sistemi che permettessero la comparazione sempre più ampia, sia tra valutazioni di diversi docenti, sia tra classi e scuole. Dagli anni ’80 in poi accanto a studi per sviluppare le migliori pratiche nella costruzione di prove oggettive, da utilizzare in classe o per indagini più ampie, gli interventi sulla valutazione in campo scolastico si sono concentrati sulla valutazione come elemento funzionale al processo stesso dell’apprendimento. Il termine edumetria (De Ketele: scienza della misura nel campo delle scienze dell’educazione) sembra raccogliere alcuni consensi perche contestualizza gli aspetti metrologici (metric), le misurazioni (assessment) in campo educativo e amplia il ventaglio delle forme di verifica con strumenti alternativi (alternative assessment). L’attenzione alla docimologia in Italia Per quanto riguarda l’Italia gli studi docimologici prendono l’avvio alla fine degli anni ’50. Sono Visalberghi e Calonghi i primi ad aprire il dibattito e a sensibilizzare sulle tematiche docimologiche. Nel ’54 Calonghi pubblica su Orientamenti Pedagogici‚ “L’insufficienza e soggettivita delle valutazioni scolastiche degli insegnanti”; nel ‘55 Visalberghi con “Misurazione e valutazione nel processo educativo”, apre un dibattito sulle funzioni e utilizzazioni del testing a scuola. Nel 1958, in occasione del Congresso internazionale di psicologia applicata, si tiene poi il Simposio di docimologia. L’ampiezza della bibliografia sulle tematiche docimologiche negli anni ’50 dimostra il nascente interesse per la problematica. I primi studi e ricerche si rivolgono soprattutto all’individuazione di metodologie e interventi per la riduzione della soggettività nella valutazione scolastica e alla riflessione sui voti. Il testo di Visalberghi (1955) è centrale per questo ampio dibattito. In esso, infatti, si discute la distinzione tra i termini “misurazione” e “valutazione”, a tutt’oggi essenziale per distinguere le fasi e le funzioni nei diversi momenti di verifica e valutazione in contesti formativi. L’invito non è a schierarsi per misure quantitative o forme di valutazioni più qualitative, ma a distinguere tra fasi che permettono di quantificare maggiormente (la misurazione) e fasi che precedono o seguono la quantificazione e/o la raccolta mirata di informazioni. In questi casi si parla di atti valutativi (valutazione), cioè atti che richiedono un giudizio. Che tra i due termini, misurazione e valutazione, ci sia una stretta interdipendenza è fuor di dubbio: «nonche sopprimere la valutazione, la misurazione nasce dalla valutazione e nella valutazione confluisce». 2 La distinzione tra misurazione e valutazione va pero mantenuta. Nella preparazione di test gli elementi qualitativi sono innegabili, ma anche quelli quantitativi. Le fasi di misurazione e di valutazione sono fasi di uno stesso processo che si conclude con la formulazione di giudizi o con l’attribuzione di voti. «La valutazione non interviene soltanto dopo l’impiego dei tests, interviene anche prima, cioè nella fase del loro apprestamento». Visalberghi ricorda che il termine misura ha due significati principali: 1. Operazione di conteggio o confronto; 2. Abito di equilibrio e discrezione. La riflessione aperta da Visalberghi spinge da un lato a migliorare le competenze nella costruzione e uso di test, nel senso ovviamente di test ben fatti, intelligenti e capaci di rilevare i processi di apprendimento, ma dall’altro a costruire giudizi più obiettivi possibili. Negli anni '60-'70, studi di Calonghi e successivamente di Gattullo (1968) manifestano l’ampliarsi del dibattito e l’approfondimento dei temi specifici. 2 Visalberghi, 1955 Calonghi elabora e valida prove di sussidio didattico nelle differenti materie scolastiche, distinguendo tra prove diagnostiche, che ricercano le cause delle difficoltà negli apprendimenti e prove oggettive che consentono una valutazione obiettiva del profitto. Gattullo (1968) definisce le tre fasi del controllo scolastico: 1. Scelta degli oggetti da sottoporre ad accertamento (che possono coincidere con gli obiettivi); 2. Operazioni da compiere per accertare il raggiungimento (o il grado di presenza) degli obiettivi prescelti; 3. Giudizio da dare sui risultati dell’accertamento operato. Dalla docimologia come problema scolastico per i singoli docenti e studenti si inizia a discutere della necessità di servizi nazionali: Non esiste un servizio regolare di docimologia in Italia, e quindi tutta la nostra poca sperimentazione riesce alquanto approssimata. Andreani Dentici (1969) allarga il quadro toccando le problematiche della misurazione dell’abilità mentale e del rendimento scolastico e offrendo sia una critica alle prove tradizionali, sia metodologie e strategie alternative per la misurazione di specifiche abilità nella scuola. La critica alle scale di misurazione e di giudizio è fatta anche da Remondino (1964) che confronta i sistemi di espressione quantitativa e qualitativa della valutazione scolastica. Dagli anni '80 con l’attuazione dell’autonomia scolastica si impone l’AUTOVALUTAZIONE (valutazione sulla propria efficacia per poter migliorare in qualsiasi campo, non solo educativo). In particolare la dimensione di autovalutazione d’istituto, da intendersi come giudizio assai articolato che la scuola esprime sulla congruenza tra le scelte progettuali, organizzative e didattiche compiute, nonche delle risorse in senso lato impiegate, e gli esiti processuali e/o intermedi finali – rispetto all’arco di tempo preso a riferimento – di fatto conseguiti. Inoltre l’esigenza di valutare la qualità del sistema scolastico a livello europeo sta spingendo i vari Governi a diffondere un livello di valutazione nazionale, integrando diversi approcci per offrire e garantire diagnosi affidabili ai decisori politici, alle amministrazioni e alle scuole. In Italia si è sviluppata una serie di indagini comparative nell’ambito del CEDE (Centro Europeo dell’educazione) e dal SNQI (Sistema nazionale per la qualità dell’istruzione) e dall’INVALSI (istituto nazionale per la valutazione del sistema dell’istruzione). Nell’ambito dell’INVALSI possiamo citare le seguenti indagini e iniziative: 1. L’indagine sulla produzione scritta (IEA-IPS 1980-85): condotta in 14 paesi ha permesso il confronto tra i livelli di profitto nella scrittura raggiunti da studenti di anno conclusivo di ciascun ciclo scolastico. Dopo aver individuato i tratti da osservare è stata costruita una griglia per la valutazione secondo due approcci: “valutazione globale” e “valutazione dei tratti principali”. 2. Il Piano di monitoraggio degli esami di Stato (Dal 1998-99): in cui rilevanti sono stati questi studi: ◦ studio e riflessione sulla fase di colloquio nell’esame di Stato; ◦ analisi campionaria per verificare l’impatto di nuove tracce, livelli emergenti e criteri di valutazione adottati dalle commissioni; (per le nuove prove scritte) ◦ studio sperimentale sull’assegnazione dei punteggi nelle prove scritte dell’Esame di Stato (Bolletta, 2001) in cui si affronta la questione dell’affidabilità dei punteggi assegnati. Attuato un piano sperimentale per: a) quantificare l’errore di misura nell'assegnazione dei punteggi negli scritti; b) determinare i fattori che influenzano l’ampiezza di tale errore; c) individuare strategie di miglioramento della precisione delle valutazioni compatibili con le modalità di esecuzione degli esami. ◦ (fase di) allestimento e monitoraggio di tutte le terze prove3; ◦ analisi delle relazioni finali dei presidenti di commissione (che offrono info quantitative su esiti degli esami e sulle «modalità di effettuazione delle votazioni per l’assegnazione dei punteggi» (come abbinare voti a punteggi)). 3. L’archivio docimologico per l’autovalutazione delle scuole (ADAS): progettato per contenere materiale valutativo. Il materiale corrisponde ai requisiti metodologici della docimologia4. L'archivio contiene quesiti slegati e prove oggettive. L'ADAS è un sistema di gestione complesso che comprende macroattività indipendenti ma coordinate fra loro, che interagiscono sulle informazioni (presenti in archivio) riguardanti il materiale valutativo. Distorsioni valutative con le prove tradizionali I principali nemici della docimologia sono senza dubbio le distorsioni valutative a scuola, soprattutto riguardo alle prove non strutturate (ad esempio elaborati scritti o interrogazioni). Nelle prove strutturate invece si è in presenza di misurazioni più oggettive. Principali effetti indesiderati o distorsioni valutative: Effetto di alone: si presenta tutte le volte che alcuni elementi della prestazione, pur poco pertinenti rispetto alla prova, risultano determinanti nel giudizio. Per esempio caratteristiche 3 4 Raccolta di tutte le terze prove, Archivio elettronico terze prove - ATP Scienza che ha per oggetto lo sviluppo della ricerca e la messa a punto di tecniche valutative. dello studente (es. studente chiassoso), l’abbigliamento, lo sguardo, i gesti, la grafia. Effetto di contagio: (conoscenza della valutazione degli altri) questa conoscenza della valutazione per esempio di un collega che riteniamo affidabile puo influenzare il nostro giudizio (es. nei consigli di classe). Estensione e generalizzazione di giudizio motivata da un giudizio altrui. Effetto di contraccolpo: si realizza quando chi insegna puo modificare la propria didattica in funzione degli esami finali. In questi casi aumenta la probabilità che alcune forme di apprendimento siano trascurate o sovrastimate durante l’anno scolastico in relazione alla presenza o assenza delle prove finali. La nuova versione dell'esame di Stato è stata introdotta per evitare questo effetto. (mah...) Effetto della distribuzione forzata dei risultati: (assimilazione alla curva normale) consiste nell’accettazione, non sempre implicita da parte di molti docenti, dell’ipotesi secondo cui gli esiti della formazione debbano rispecchiare l’andamento della curva normale di molti fenomeni naturali, o degli errori accidentali delle misurazioni, ovvero non possano che distribuirsi secondo la famosa curva a campana di Gauss (a fine anno 20% di prestazioni basse, 60% medie, 20% prestazioni alte). Molti prof si omologano a questa concezione anche se nei fatti riscontrano il contrario, cioè una distribuzione casuale. Infatti, se la distribuzione non è normale si sarebbe di fronte ad azioni didattiche e formative praticamente inefficaci e l’errore o distorsione consisterebbe nell’assimilare la distribuzione di fenomeni “formativi” con quelli che hanno distribuzione casuale. Insomma, l’insegnante non agisce bene didatticamente, riscontra risultati poco soddisfacenti ma invece di intervenire si omologa forzatamente alla distribuzione normale dei risultati. Effetto Pigmalione: è l’effetto edipico della profezia che si autoverifica. Più che una distorsione è un effetto positivo. Ovvero l’adeguamento dei soggetti alle aspettative. In una scuola di Chicago5 è stato dimostrato che adottare atteggiamenti più facilitanti e comunicare in modo esplicito le proprie aspettative positive motiva gli studenti, contribuendo al loro successo. È il contrario della stereotipia. Effetto di stereotipia: (pregiudizio o forte incidenza di precedenti giudizi) consiste nella scarsa alterabilità dell'opinione che ci si fa di un allievo, dal punto di vista cognitivo o non cognitivo, cosi che ogni giudizio potrebbe risentire positivamente o negativamente della generalizzazione dell'opinione originaria. Ci si irrigidisce su una fissità valutativa e questo accade soprattutto quando il valutatore dispone di poco tempo per la valutazione (es. è 5 Rosenthal e Jacobson, 1968. sovraccarico di compiti da valutare). Effetto di contrasto: Si puo verificare soprattutto durante le interrogazioni orali, ma anche con la correzione dei compiti scritti a stimolo e risposta aperti. Consiste, come l’effetto di alone, in una sovrastima o sottostima di una determinata prova, ma questa volta rispetto a standard di prestazioni ideali del docente, o, più frequentemente, rispetto a precedenti, contestuali o immediatamente successive prove di altri allievi. Questo effetto puo essere contenuto raffrontando le prestazioni con le competenze oggetto di valutazione. Nella correzione, si possono rianalizzare le prove a parità di votazione e verificare la presenza o assenza di effettivi scarti, procedendo a una votazione più calibrata. Soggettivita, oggettivita e intersoggettivita Una delle finalità degli studi docimologici è l’essere consapevoli delle diverse distorsioni e limitarne gli effetti. 3 dimensioni entrano a fare parte del processo valutativo degli apprendimenti scolastici: Dimensione soggettiva: riguarda una valutazione poco oggettiva ma inficiata dall’individuo più che dal docente. Praticamente la valutazione dipende dalla persona che l’ha compiuta; Oggettiva: cerca di utilizzare criteri costanti e uniformi. Le verifiche oggettive sono di natura strutturata, quesiti a risposta chiusa. Si prevede l’esecuzione di compiti uguali per tutti. Oggettività di misurazione significa che la valutazione non dipende dalla persona che l’ha compiuta. Le prove cosi strutturate possono chiamarsi prove strutturate di conoscenze o test di profitto. Una volta stabiliti gli obiettivi dell’apprendimento l’insegnante è in grado di fornire uno stimolo specifico, l’allievo da parte sua risponde fornendo una prestazione altrettanto specifica; Intersoggettiva: compare quando nell’attribuzione di voti diversi valutatori e correttori discutono e condividono i criteri e le modalità in base alle quali procedere. Prevede un accordo nell’uso di descrittori, criteri e modalità di rilevazione e misurazione. CAPITOLO 3 FUNZIONI, FORME E TEMPI DELLE VERIFICHE Per ragionare sul come mettere i voti è indispensabile affrontare preliminarmente il discorso della loro funzione, e in generale delle diverse forme della valutazione scolastica. Alcune verifiche condotte a scuola, più di natura informale, o condotte in itinere non portano sempre a una formale attribuzione di punteggio, voto o giudizio. Altre invece, pensate appositamente, conducono a una misurazione delle prestazioni e rimandano all’uso di diverse possibili scale di valori. Sono proprio le funzioni della valutazione a esplicitare il rapporto tra le prove di verifica e i livelli di misurazione. Le prove di verifica possono essere di diverso tipo e assolvere funzioni diverse, anche a seconda dei tempi della didattica. Ma complessivamente si puo sostenere che le verifiche servono fondamentalmente a rilevare e regolare i processi di apprendimento degli studenti. Modelli che guidano la valutazione La scelta di specifiche prove o forme di esame, l’individuazione di criteri comuni per la correzione o valutazione dei risultati, l’utilizzazione di scale di misura comprensibili e condivisibili tra docenti sono fortemente dipendenti dal tipo di valutazione che si sta adottando. Accanto alle esperienze e ai modelli valutativi del docente vi sono pero altre dimensioni che concorrono all’attribuzione di voti e nella rilevazione e nella regolazione dei processi di apprendimento: a) Le competenze didattiche e metodologiche del docente b) Il livello di informazione (agli studenti, genitori, alla scuola) che il voto si propone. De Ketele (1993) ha costruito un quadro dei principali paradigmi che si sono sviluppati nella teoria della valutazione, offrendo un utile inquadramento alla nostra riflessione. Tra i diversi modelli si ricordano: 1. Dell’intuizione pragmatica (tradizionale/intuitivo): la valutazione è un atto sincretico, strettamente legato alla persona del valutatore, colui che ha condotto l’apprendimento. Questo assume le proprie responsabilità con coscienza professionale. I voti e i giudizi sono il sistema che dispensa il valutatore dal dover giustificare i contenuti precisi delle prove e che offre certe apparenze di obiettività. 2. Docimologico: è orientato essenzialmente verso la fedeltà o affidabilità delle valutazioni, e delle sue espressioni in voti o misurazioni. Si è lasciato spazio all’edumetria, cioè una scienza della misura nel campo delle scienze dell’educazione. 3. Sociologico: la valutazione assume un ruolo importante nel processo di riproduzione sociale e contribuisce a mantenere o accentuare le ineguaglianza culturali. 4. Centrato sugli obiettivi/padronanza: la valutazione consiste esclusivamente nel confronto tra una prestazione e degli obiettivi fissati (approccio Tyleriano). La valutazione avviene al termine del processo di formazione per mettere in evidenza quali alunni dominano quali obiettivi. Gli strumenti da utilizzare sono precostituiti e a seconda degli obiettivi si ricorrerà a test o a osservazioni con criteri. Bloom (1956) amplia il modello di Tyler modello centrato sulla padronanza: punta sulla valutazione diagnostica, formativa e orientativa. 5. Formativo/differenziato: si deve a Scriven il termine di valutazione formativa, per intendere la funzione di regolazione retroattiva nella valutazione. La valutazione formativa è necessaria per progettare attività di recupero mirate, e interattiva per diagnosticare e integrare le attività di insegnamento e apprendimento. (Questo modello riprendendo quello sociologico, prospetta soluzioni in termini di insegnamento differenziato e di pedagogia differenziata). 6. Centrato sulle decisioni e dell’integrazione: con il modello di Stufflebeam si dà centralità alla valutazione del Contesto, degli Input, dei Processi e dei Prodotti (CIPP 6). Questo modello non è centrato sugli obiettivi ma sulla decisione nella situazione. De Ketele ha sviluppato la sua applicazione alla valutazione scolastica. 7. Centrato sul consumatore: Scriven riconosce un posto alla valutazione sommativa, da far condurre a valutatori esterni, i quali, liberi da ogni obiettivo, assemblano le informazioni conoscitive da strumenti variati e pronunciano giudizi di valore. Chi sono i consumatori? Il pubblico a cui si rivolgono le persone formate e gli stessi soggetti della formazione; 8. Centrato sul cliente ( o modello della valutazione rispondente): gli studi alla base sono quelli di Stake, più interessati ai programmi di formazione che alla pratica scolastica. Si cerca di conciliare il pensiero di Stufflebeam con quello di Scriven 7, dando al valutatore a) il ruolo di raccogliere le informazioni; b) analizzare le congruenze, c) fornire una comprensione della situazione per migliorare il processo di formazione (valutazione rispondente). 9. Economico: parte dal concetto di accountability (rendere conto) per studiare la variabilità delle acquisizioni degli alunni, del peso delle caratteristiche socio-economiche e del peso dell'istruzione. Si prospetta in termini di macrovalutazione, utile ai decisori politici e utilizza strumenti di misurazione validi e affidabili. 6 7 Context, input, process, product. Stufflebeam – > valutazione contesto (CIPP) Scriven – > valutazione formativa e sommativa 10. Come processo di regolazione: secondo Allal, Cardinet e Perrenoud, ogni valutazione è un mezzo di regolazione all’interno di un sistema di formazione. È possibile sottolineare diverse questioni riguardanti la valutazione: 1. Per quel che riguarda le funzioni della valutazione: la valutazione a scuola serve a esplicitare, a rendere evidente l’andamento della didattica e dell’istruzione. La raccolta degli elementi informativi è comunque finalizzata al monitoraggio di quei processi, con l’obiettivo di prendere decisioni per migliorarli. Ovviamente non tutto puo e deve rientrare in un processo valutativo, altrimenti la valutazione da mezzo si trasforma in fine, perdendo di vista le finalità educative e formative del contesto scolastico. Dunque la valutazione scolastica è una fase/elemento intrinseco al processo didattico. È un processo di raccolta intenzionale e pianificata di elementi/informazioni finalizzato ad esprimere un giudizio (descrittivo, comparativo, di progresso, certificativo) sulla progressione degli apprendimenti da parte di singoli o gruppi di allievi. 2. I l rapporto tra le diverse fasi della valutazione: ovvero in particolare i momenti della rilevazione e misurazione rispetto a quelli del giudizio o valutazione complessiva. Con il termine misurazione si fa riferimento a tutte quelle forme di rilevazione, di accertamento, di verifica, che permettono di quantificare determinati elementi. Nel termine è implicito il riferimento a una qualche unità di misura e quindi a un approccio quantitativo. Con il termine valutazione, si intende il processo di sintesi che porta a dotare di valore gli atti educativi. Nel termine quindi non si richiamano unità di misura ma si rimanda a veri e propri giudizi. Dunque la valutazione è un giudizio di valore perche è basata sempre su un conflitto di 2 cose: tra le cose come sono e come dovrebbero essere. Una delle cose che puo aiutare la valutazione è la misurazione. Ebbene i due termini non si escludono: la misurazione nasce dalla valutazione e nella valutazione confluisce (Visalberghi, 1955). In sintesi definiamo: Testing: forma strutturata e oggettiva di verifica; Misurazione: modalità di accertamento con possibile quantificazione; Valutazione: giudizio basato sui risultati di una o più misurazioni. 3. Una terza serie di questioni riguarda la caratteristica di flessibilita che hanno i diversi strumenti di verifica rispetto alle funzioni valutative. Gli strumenti di verifica variano in relazione alla funzione della valutazione. Per valutare con funzione certificativa potrebbe essere utile far ricorso a prove strutturate (testing oggettivo/standardizzato) rispetto a forme più libere dell’espressione quali il colloquio o la produzione orale. Domenici (1993) sintetizza la questione della flessibilità nella scelta degli strumenti di rilevazione, presentando la regola aurea in campo docimologico: «per ogni funzione e/o obiettivo specifico della valutazione va impiegato uno strumento di verifica omologo o congruente con quella funzione e/o con quell’obiettivo». 4. Un ultimo gruppo di considerazioni riguarda la centralita dei voti a scuola nei livelli scolastici. L’uso e la centralità dei voti è in stretta relazione con la funzione sommativa e certificativa. Si ricorre alla scala dei voti per rispondere alla funzione di verifica finale e di accertamento conclusivo. L’attribuzione dei voti è un problema che tocca direttamente solo la fascia scolastica superiore mentre nella fascia iniziale e intermedia si utilizza il sistema dei giudizi. Il raccordo docimologico nella valutazione si configura quindi come prerequisito e al tempo stesso fondamentale obiettivo della continuità scolastica e formativa. (Benvenuto, Natoli, 2000). La giungla terminologica Nel 1975 Popham defini il lessico utilizzato nel campo della valutazione con l’espressione giungla terminologica. Una volta allargato il quadro a livello internazionale la giungla assume dimensioni maggiori, per continuare con la metafora, ma sta ad indicare l’ampia varietà di prassi valutative sviluppate ed adottate nei diversi contesti, la necessità di mantenere specificità su alcuni aspetti ma anche l’uso eccessivo di sinonimi non sempre giustificato. Il Quadro di riferimento europeo per l’apprendimento, l’insegnamento e la valutazione delle lingue si offre per un utile approccio comparativo. Alcuni termini centrano la definizione dell’oggetto di valutazione (cosa valutare), altri riguardano le modalità di attribuzione di voti, giudizi o punteggi (come valutare), alcuni sottolineano i tempi didattici che spesso scandiscono le funzioni valutative (quando), e infine alcune espressioni rimandano alla responsabilità nella valutazione (chi valuta). Il cosa valutare Quando si valuta, e a volte si ricava di conseguenza un voto o si esprime un giudizio è necessario chiederci di che cosa ci stiamo occupando. In altre parole, quali sono gli “oggetti” della valutazione. Vi sono alcune coppie di termini che rimandano a delle riflessioni e spesso incomprensioni che si sviluppano quando si deve valutare collegialmente e individualmente. Tra queste si ricordano: 1. Profitto scolastico / padronanza La valutazione del profitto (valutazione disciplinare), almeno in contesti scolastici, è quella che mira all’accertamento del raggiungimento di un progresso rispetto ad un punto di partenza, dello scarto tale da poter definire il percorso di studio ed apprendimento in termini di acquisizione di risultati o raggiungimento di obiettivi. Genericamente inteso il profitto rimanda ad apprendimenti di insegnamento scolastico e quindi a obiettivi di programma e contenuti disciplinari. Si tratta quindi di una valutazione interna alla scuola e/o della disciplina di insegnamento. Un insegnante che valuta in termini di profitto è fondamentalmente interessato a rilevare e valutare il guadagno, la crescita rispetto a determinati punti di partenza. La valutazione di padronanza o di competenza (valutazione dei saperi), invece, più specificamente rimanda a forme di verifica dell’acquisizione di saperi utili anche al contesto extra scolastico, come ad esempio per le professioni. E questa quindi una valutazione più attenta al mondo esterno. Le due valutazioni di profitto e competenze rimandano (persino) ad un possibile continuum relativo alla prospettiva valutativa più o meno orientata all’interno o all’esterno della scuola. 2. Conoscenze / prestazioni La valutazione orientata alle conoscenze rimanda all’accertamento di concetti, fatti e nozioni, per rimanere in una terminologia ben conosciuta nella scuola, cioè tende a saggiare la memorizzazione dei contenuti di studio. La seconda, quella orientata alle prestazioni si rivolge, attraverso prove dirette, alla verifica di elementi costitutivi delle competenze. Non potendo verificare le competenze, si verificano le prestazioni (comportamenti osservabili) che ne segnalano l'acquisizione. 3. Standard / progresso Per valutazione di standard si intende quella che permette di selezionare, discriminare tra chi ha raggiunto un determinato livello (competence standard), o soglia di accettabilità (cut-off point) e chi si trova al di sotto di tale traguardo. La divisione tra esperti/non esperti, competenti/non, tipica di una valutazione che si base su criteri di padronanza non tende alla misurazione dei gradi di qualità dei risultati conseguiti. La valutazione di progresso o basata su criteri di progressivita va invece a rilevare proprio il continuum di quegli apprendimenti che portano al raggiungimento o meno di una determinata competenza. Essa dovrà quindi identificare tutti i livelli significativi della padronanza e procedere ad una valutazione, graduale e in sequenza di tali livelli. Un esempio di valutazione delle padronanze è l’ECDL che si raggiunge attraverso una serie di 7 prove di padronanza, ciascuna con specifici criteri che definiscono lo standard da raggiungere. 4. Formativa / sommativa La v. formativa è quella che appunto dà forma agli apprendimenti, cioè si svolge durante i percorsi formativi e serve a regolarne gli obiettivi, i tempi, le modalità. Essa è un processo continuo, aiuta la raccolta di quelle informazioni sull’andamento degli apprendimenti, difficoltà e punti di forza, necessarie per la riprogettazione degli interventi didattici. Con l’espressione valutazione formatrice si è inteso distinguere quel tipo di valutazione che confronta la percezione che si ha di una conoscenza/competenza con la loro verifica effettiva. La v. sommativa è quella che si svolge al termine di un processo di insegnamento o azione didattica e serve appunto a fare una somma ́ dei risultati ottenuti. Essa in quanto attuata al termine di un ciclo di interventi, di un modulo, di un corso, è puntuale e nella gran parte dei casi si rivolge alla verifica del profitto ma anche delle competenze raggiunte. Il quando valutare Continua/Discreta: la valutazione continua è quella che l’insegnante o lo studente svolgono durante l’intero arco del corso dell’anno. La valutazione è discreta o puntuale quando è rivolta ad un unico elemento, sia prova, sia in generale, sia un determinato aspetto di quella prova (es. compito in classe). Diversi sono i momenti della verifica e della valutazione nella prassi didattica e scolastica.8 1. La valutazione svolta all'inizio di un percorso, o dell'anno scolastico, e la chiamiamo iniziale o d i ingresso, serve a verificare la situazione di partenza (analisi dei prerequisiti) per meglio impostare le azioni didattiche successive. Questa valutazione, se svolta con particolare precisione e su elementi significativi, permette di individuare le azioni più proficue, di natura compensativa o integrativa, in pratica di: mettere a punto i percorsi individualizzati (diagnostica) utili anche a indirizzare meglio lo studente (ri-orientamento). 2. Quando la valutazione si svolge durante il processo di insegnamento/apprendimento (in itinere), essa serve a: rilevare informazioni nel corso stesso del processo, nel suo verificarsi, per poterlo rimodellare (formativa) e migliorare in corso d'opera. La formatività della valutazione investe il processo stesso di insegnamento e quindi contribuisce a finalizzare in modo più efficace gli interventi correttivi e di approfondimento per gli apprendimenti (diagnostica). 8 Vertecchi, 1984. Considerando che questa valutazione avviene sotto forme diversificate e soprattutto si moltiplica durante le fasi didattiche, la chiamiamo continua, proprio ad indicare il suo carattere permanente e pervasivo. 3. La valutazione che invece si svolge al termine di un segmento formativo (lezione, unità, modulo, corso), e la chiamiamo finale, diventa riassuntiva del segmento, cioè: ne sintetizza il percorso (sommativa) descrivendo il raggiungimento o meno di determinati livelli predefiniti di competenze (certificativa) e offrendo giudizi e indicazioni predittivi-previsionali di prosecuzione di percorso (prognostica). Il come valutare Vi sono diverse coppie di termini che rimandano soprattutto al come valutare e definiscono, da un lato, la varieta di approcci, dall’altro, la necessità di rapportarli alle funzioni della valutazione e alla natura di cio che si vuole valutare. 1. Riferita alla norma/criterio (prove criteriali) Nei primi anni 60 Glaser (1963) distinse tra prove normative e prove criteriali. Le prove normative si riferiscono a quelle forme di verifica che permettono di confrontare i risultati di chi si sottopone alla prova con i risultati di uno o più gruppi di riferimento che rappresentano la norma. Questi ultimi gruppi vengono invidividuati come campione rappresentativo della popolazione a cui ci si riferisce. Le prove criteriali sono invece quelle forme di verifica che mettono in rapporto le prestazioni dei singoli con una determinata prestazione tipo (criterio).9 2. Diretta/indiretta L a valutazione diretta è quella che si attua in contemporanea rispetto al comportamento o alla prestazione da rilevare. Si presume che quel comportamento o prestazione si manifesti in modo tale da poter essere sottoposto a una qualche forma di verifica osservabile. La valutazione indiretta è quella richiesta per quelle competenze non manifeste esplicitamente. Se vogliamo sapere se uno studente ha capito cio che ha letto, possiamo sottoporlo ad alcune domande strutturate di comprensione, o chiedergli di dirci oralmente cosa ha capito, oppure chiedergli la stesura di un riassunto. 9 Cfr. anche p. 134. 3. Soggettiva/oggettiva La valutazione soggettiva è una valutazione espressa individualmente da uno o più valutatori, e in quanto individuale puo risentire di molteplici distorsioni che riguardano la scelta degli stimoli e la condivisione di criteri nella va1utazione. L a valutazione oggettiva è quella che ha eliminato l’interferenza della soggettività del singolo o dei diversi valutatori. 4. Liste di controllo/scale di punteggio La valutazione che ricorre a liste di controllo (check-lists) è spesso di tipo diretto e classifica gli strumenti attraverso l’uso di indicatori. Le liste sono appunto elenchi di determinati elementi scelti come indicatori di fenomeni o comportamenti che permettono di riscontrare il raggiungimento di prestabiliti livelli di apprendimento. Questo tipo di valutazione si occupa maggiormente di comportamenti da analizzare mentre si sviluppano, in diretta e spesso di natura collettiva. Con la classificazione non si giunge a delle vere e proprie scale (come nel caso dei punteggi) ma all’identificazione di categorie che aiutano a distinguere gli elementi da valutare. La valutazione attraverso scale di punteggio (rating) porta a graduatorie o di tipo numerico o a fasce di livello. 5. In base all’impressione/a criteri La valutazione in base all’impressione è di natura soggettiva. La valutazione in base a criteri (o strutturata) cerca di concordare elementi comuni in base ai quali raggiungere un giudizio individuale o collegiale di maggior validità possibile. 6. Olistica/analitica La valutazione olistica è quella di natura sintetica che abbraccia l’insieme di elementi costitutivi della valutazione di una determinata prestazione. La valutazione analitica o per tratti è quella che focalizza i singoli aspetti che costituiscono la prestazione oggetto di valutazione. 7. Di categorie/di serie La valutazione di categorie fa riferimento a una prova singola e utilizza per la correzione griglie con più categorie o tratti. La valutazione di serie si riferisce a una concatenazione o a un certo numero di prove distinte che vengono valutate con un’unica scala e un semplice voto olistico. Il chi valuta Quando il giudizio sugli apprendimenti è espresso dall’insegnante o da un esaminatore si parla di eterovalutazione. Quando è lo studente a valutare i propria apprendimento si parla di autovalutazione dello studente. Tutte le forme di autovalutazione degli studenti servono a rafforzare la consapevolezza personale, e di gruppo, oltre ad aumentare la motivazione nell’apprendimento e possono integrare le eterovalutazioni nella formulazione di giudizi sintetici. Gli ambiti delle valutazioni Oltre alla valutazione dei prodotti o risultati dell’apprendimento risulta essenziale la valutazione dei processi che portano al loro raggiungimento e quindi delle prassi didattiche o dei programmi disciplinari e di studio. Tra i diversi modelli generali che si sono utilizzati in questi ultimi anni quello maggiormente utilizzato fa riferimento alle categorie proposte da Scheerens con il modello CIPP (contesto, input, processi e prodotti). - CONTESTO: Offerta culturale e socio-economica del territorio. Numero e caratteristiche degli alunni - RISORSE: Finanziarie, Umane, Strutturali - PROCESSI: 1. ISTITUTO (Progettazione, strutturazione; Coinvolgimento famiglie; Apertura al territorio; Continuità didattica; Clima scolastico; Spazi e servizi) 2. CLASSE (Didattica e tempo; Uso dei materiali; Sperimentazione, innovazioni, Valutazione degli alunni) - RISULTATI: Livelli di Apprendimento; Regolarità del Percorso; Soddisfazione. CONTESTO Offerta culturale e socio-economica del territorio Numero e caratteristiche degli alunni RISORSE - Finanziarie - Umane - Strutturali PROCESSI DI ISTITUTO - Progettazione e strutturazione della scuola - Coinvolgimento famiglie - Apertura al territorio - Continuità didattica - Clima scolastico - Uso degli spazi e dei servizi scolastici PROCESSI DI CLASSE - Organizzazione didattica e tempo scuola - Uso dei libri e di materiali didattici - Sperimentazione e innovazione - Valutazione degli alunni SINTESI DELL’ANALISI RISULTATI - Livelli di apprendimento - Riuscita scolastica professionale - Regolarità del percorso Scolastico - Soddisfazione dell’utenza e degli operatori In questi ultimi anni si è passati ad una dimensione ecologica della valutazione. In questo caso ci si preoccupa del contesto (context evaluation) nel quale si svolgono le attività scolastiche (dai principi di professionalità nell’insegnamento – valutazione degli insegnanti – all’attivazione di pratiche gestionali – autonomia e decisioni organizzative di competenza del dirigente scolastico). Si passa da una verifica quantitativa ad una verifica qualitativa del servizio scolastico. La verifica per obiettivi Nella letteratura di settore e nell’uso scolastico, molto spesso i termini obiettivo, traguardo formativo, meta o finalità sono utilizzati come sinonimi. Gli obiettivi sono esplicitazione di cio che dovrebbe essere raggiunto attraverso le azioni didattiche intenzionali e in considerazione dei livelli di partenza dei singoli allievi. Definire un obiettivo significa quindi indicare il traguardo in vista di una didattica. È in tale contesto che i docenti organizzano le sequenze didattiche (programmazione didattica) considerando la specificità della singola disciplina (programma disciplinare) e all’interno di finalità di corso generali (curricolo). Nell’organizzazione didattica ogni obiettivo puo essere scomposto in sotto-obiettivi. Cio che conta è che gli obiettivi siano specifici, razionali, valutabili e misurabili intersoggettivamente per mezzo di prove oggettive di verifica. Nell'organizzazione didattica il docente indica diversi livelli di obiettivi: generali (che riguardano la crescita personale dello studente – finalita e obiettivi educativi), relativi a una specifica disciplina (obiettivi specifici). Se poi si esplicitano gli obiettivi all’interno del percorso didattico si puo diversificare tra obiettivi iniziali (obiettivi prerequisiti), da raggiungere durante (obiettivi intermedi) o al termine delle azioni didattiche (obiettivi finali, terminali). Intorno agli anni '70 in Italia si inizio a riflettere sulla programmazione didattica e sulla formulazione degli obiettivi10. In tale ambito si inizia a palare di Mastery Learning. Il mastery learning traducibile come "apprendimento per la maestria o della padronanza" è un modello di azione didattica che mira ad un apprendimento efficace per il più alto numero di allievi. Si tratta di un approccio collettivo all'istruzione individualizzata. La quasi totalita degli alunni può imparare bene la maggior parte di ciò che viene loro insegnato solo se è posta in situazioni significative e stimolanti. F u Carroll (1963) a sviluppare il modello concettuale di apprendimento scolastico alla base di questa metodologia. Il grado di apprendimento scolastico dipenderà dal tempo che lo studente ha effettivamente impiegato nell’apprendimento in rapporto al tempo di cui ha bisogno. Oltre alle 10 La causa furono i decreti delegati, che introdussero la programmazione nella scuola. caratteristiche dell’allievo sono le caratteristiche dell’istruzione a giocare un ruolo decisivo negli apprendimenti; per dimensionare i tempi individuali e quelli dell’istruzione scolastica è quindi indispensabile tener conto: 1) della perseveranza dello studente, 2) della sua opportunità di apprendere, 3) dell’attitudine dello studente per la materia, 4) della qualità dell’istruzione e 5) della capacità di comprendere l’istruzione. Il modello di Carroll è il seguente: 1. Perseveranza, 2. Opportunità di apprendere Grado di apprendimento= f 3. Attitudine, 4. Qualità dell'istruzione, 5. Capacità di comprendere l'istruzione Gli esperimenti condotti da Bloom hanno consentito di verificare che questo modello teorico, una volta trasformato in modello operativo, puo portare circa l’80% degli studenti a conseguire gli obiettivi formativi stabiliti. Dunque i passi che il docente deve compiere perche tale modello risulti efficace sono: • formulare chiaramente cio che si intende per padronanza (mastery) della propria materia definendo cio che gli studenti devono imparare; • determinare il livello o standard di padronanza (mastery performance) da raggiungere; • suddividere il corso in una serie di unità d’insegnamento-apprendimento più piccole; ogni unità dovrebbe prevedere tecniche di feedback/correzione e permettere di sperimentare modi alternativi per apprendere il materiale; • mettere a punto test diagnostici del progresso per ogni unità e una prova finale. Un punto qualificante e centrale dell’intero processo del mastery learning è quindi la definizione degli obiettivi da conseguire. E la verifica degli obiettivi è passaggio imprescindibile. La prima impostazione per la determinazione degli obiettivi fu suggerita da Tyler, il quale afferma che “il modo più utile per definire gli obiettivi è quello di esprimersi in termini che identificano sia il genere di comportamento da sviluppare negli studenti sia il contenuto o campo vitale in cui tale comportamento deve esplicarsi”. Definire un obiettivo con sufficiente chiarezza significa , secondo Tyler: “descrivere o illustrare il genere di comportamento che lo studente deve acquisire, in modo che chi lo abbia visto, possa riconoscere tale comportamento”. Per sviluppare le indicazioni di Tyler alla fine degli anni ’40 negli USA si svilupparono dei gruppi di lavoro per mettere a punto le tassonomie di obiettivi educativi. Bloom e collaboratori (1956) svilupparono quella di area cognitiva, risultata un’utile guida per gli insegnanti nella loro programmazione. TASSONOMIA DI BLOOM OPERAZIONE Conoscenza DEFINIZIONE La capacità di ricordare o riconoscere un contenuto in forma praticamente identica a quella nella quale esso è stato presentato originariamente. Es. l'anno della scoperta dell'America o E=mc2 Comprensione Questa operazione implica 3 capacità: traduzione (trasporre il contenuto presentato da una forma simbolica ad un’altra – es. spiegare verbalmente un grafico); interpretazione (capacità di spiegare e riassumere il significato generale di un contenuto presentato) ; estrapolazione (comporta la capacità del discente di andare oltre il contenuto presentato per determinare le probabili applicazioni, conseguenze o effetti date le condizioni descritte – es. tratte le conclusioni di una discussione). Applicazione La capacità di utilizzare il contenuto espresso o per risolvere un problema o per apprendere con maggior facilità in una situazione nuova (es. utilizzare le operazioni matematiche per trovare un errore in un libretto di assegni). Analisi Questa operazione è sostenuta da due tipi di capacità: l’analisi degli elementi (richiede che lo studente sia in grado di scomporre un contenuto che gli viene presentato (es. trovare i paragrafi di un testo, o i verbi); l’analisi delle relazioni (presuppone nello studente la capacità di individuare la relazione tra una parte di un aggregato di contenuto e le altre parti di esso (es. trovare la relazione tra uso del colore nella pittura e l’evocazione di emozioni). Sintesi La capacità di organizzare e combinare il contenuto in modo da produrre una struttura, un modello o idea nuovi. A questo livello lo studente deve comunicare in modo reale ed esercitare la capacità creativa. (es. allestire una rappresentazione di classe). Valutazione La capacità di esprimere giudizi sia qualitativi che quantitativi sul modo in cui particolari elementi o aggregati di contenuto soddisfano criteri interni o esterni. Lo studente deve esprimere un giudizio sul lavoro e sull’utilità di qualcosa per uno scopo determinato. Lo studente che compie una valutazione in base a criteri interni dovrà usare come proprio strumento la coerenza logica; se la valutazione è fatta in base a criteri esterni deve usare come suo strumento criteri ben specificati, fornitigli da esperti. Riprendendo Tyler, Mager (1972-76) fornisce una dimensione operativa alla didattica per obiettivi. Per Mager un obiettivo è “la descrizione di una performance che gli studenti devono essere in grado di mostrare per essere considerati competenti; descrive cioè il risultato che l’istruzione di prefigge piuttosto che il metodo didattico”. Egli fornisce anche indicazioni sul come verificare il raggiungimento degli obiettivi didattici attraverso il processo di operazionalizzazione degli obiettivi. Per formulare gli obiettivi il docente dovrà rispondere a tre domande: 1. Che cosa dovrebbe essere in grado di fare l’allievo (performance); 2. In quali condizioni si vuole che l’allievo sia in grado di produrrei il comportamento desiderato? (condizioni); 3. Come dovrà essere tale comportamento) (criterio). L’elenco delle performances di un obiettivo e l’esplicitazione delle modalità da utilizzare per verificarle (compiti, prove, attività che permetteranno la loro osservazione e misurazione), sono fasi operative della definizione degli obiettivi. La centralita delle competenze Il termine competenza, di largo uso in ambito professionale e lavorativo, è stato recentemente ripreso in molti documenti e in un ampio dibattito culturale che ha attraversato la scuola, e nel regolamento attuativo del nuovo esame di Stato (1998), insieme ad altri termini, contribuendo a ingenerare non poche interpretazioni11. La confusione risiede nel fatto che molto spesso per definire competenza si rimanda esplicitamente a uso di capacità o ad abilità, creando una sorta di corto circuito nella comprensione. La competenza si puo intendere come: 1. Possesso (padroneggiamento, padronanza, presenza) di determinate dimensioni (conoscenza, capacità, abilità) 2. Utilizzazione di quelle dimensioni in contesti operativi (situazioni, aree specifiche, problemi). Con il termine competenza possiamo quindi intendere complessivamente il saper utilizzare determinati livelli di “conoscenze/apprendimenti” (teoriche e operative) in specifici contesti . Diversa è la questione su quali siano i livelli di competenze da considerare centrali a scuola o nei diversi contesti formativi o professionali. E di conseguenza su come si possano verificare e valutare le performances che individuano una competenza. Vertecchi distingue fra: competenze generali, ossia libere da determinazioni settoriali (competenza lessicale, competenza linguistica attiva e passiva; competenze inferenziali; competenze percettive, operative e motorie) e competenze concorrenti, che si riferiscono agli apporti di competenza propri di determinate articolazioni della conoscenza, e quindi di derivazione disciplinare o pluridisciplinare. Un’altra classificazione che proviene da studi in ambito di formazione professionale (Di Francesco, 1997) rimanda a 3 aree, che entrano in gioco in diverse situazioni e che permettono al soggetto di trasformare i saperi in un comportamento lavorativo efficace: - Competenze di base o generali (conoscenze che costituiscono i requisiti per l’accesso a qualsiasi percorso di formazione professionale e al lavoro); 11 «L'analisi e la verifica della preparazione di ciascun candidato tendono ad accertare le conoscenze generali e specifiche, le competenze in quanto possesso di abilità, anche di carattere applicativo, e le capacità elaborative, logiche e critiche acquisite». Art. 1 c. 3, regolamento attuativo sul nuovo esame di stato (1998). - Competenze tecnico-professionali (saperi e tecniche necessarie all’interno delle attività operative, richieste dai processi di lavoro nei diversi ambiti professionali); - Competenze trasversali (competenze comunicative, relazionali di problem solving). Per certificare le competenze bisogna individuare le performances che definiscono una competenza, e definire eventuali standard con cui confrontare le prestazioni aggiuntive. Quel che di solito si verifica non è quindi la competenza ma alcune prestazioni (performances) ad essa collegate. Le prestazioni sono degli indicatori di quelle competenze, e per misurare le competenze abbiamo bisogno di: - individuare una serie (cioè un numero consistente) di prestazioni che siano validi indicatori di quella competenza; - rilevare il grado o il livello raggiunto in quella competenza. A tal proposito è possibile definire diversi livelli di possesso di una competenza (5): a) Livello del principiante: il soggetto tende a seguire regole e principi comunicati dall’esterno senza tener conto in modo esplicito del contesto in cui opera; si presenta in genere privo di flessibilità e di esperienza; b) Livello del principiante avanzato: il soggetto riesce a collegare quanto studia, o ha studiato, con l’esperienza che sta progressivamente sviluppando nel contesto della sua attività e a selezionare i comportamenti da adottare; c) Livello della competenza: le prestazioni sono basate sui principi abbastanza generali derivati non soltanto dallo studio ma soprattutto dall’esperienza; d) Livello di competenza avanzata: si ha una notevole capacità di inquadrare le situazioni da affrontare; e) Livello dell’esperto: il soggetto riesce a cogliere agevolmente un quadro completo e articolato delle situazioni da affrontare e ad agire per affrontarle in modo fluido, appropriato e senza sforzo. Apprendere in gruppo e le valutazioni autentiche “La forma dominante di apprendimento e prestazione a scuola è quella individuale: anche se occasionalmente si fanno svolgere attività di gruppo di vario genere, in definitiva gli studenti sono giudicati per quello che sanno fare da soli. Inoltre una parte rilevante delle attività fondamentali della scuola sono costruite sulla base del lavoro individuale: compiti a casa, esercizi in classe e simili. Quasi sempre, lo studente va bene o va male in un compito indipendentemente da quello che fanno gli altri studenti (a parte per gli effetti dei voti su una curva!), mentre molte delle attività esterne alla scuola sono condivise socialmente” (Resnick, 1987). Accanto a questo modello si diffondono contesti in cui l'apprendimento è più interattivo e multiforme e la gran parte dei compiti cognitivi sono svolti in gruppo. Le esperienze delle Communities of Learners (COLS, Comunità di studenti), (Brown e Campione, 1994) o Fostering Communities of Learning (FCL) (Ridefinite da Brown nel 1997) rilanciano il discorso della valutazione su binari completamente diversi. Accanto all'eterovalutazione gestita dal docente (teacher assessment) si affiancano: - autovalutazione gestita dallo studente (self-assessment); - valutazione tra pari (peer-assessment); - valutazione di gruppo (group-assessment); - valutazione di natura collaborativa (collaborative-assessment). Sotto l’etichetta di “valutazioni autentiche” si è sviluppata intorno agli anni ’90 negli Stati Uniti una corrente di pensiero che si contrappone alle forme di valutazione tradizionale; invece di privilegiare forme standardizzate per la verifica, si cerca di verificare non solo ciò che lo studente sa, ma ciò che sa fare con ciò che sa. Per “valutazione autentica” si intende quella valutazione che mira a verificare l’utilizzo delle conoscenze in compiti realistici o extrascolastici. Khattri e Sweet (1996) indicano precise distinzioni tra le dizioni di 1) valutazioni alternative, 2) autentiche e 3) di prestazioni, in rapporto alle forme di valutazione tradizionali: 1) alternative assessment – distinzione tra fact-based e multiple choice testing; 2) authentic assessment – natura real life di compiti che caratterizzano l'assessment; 3 ) performance assessment – tipo di assessment che «richiede allo studente di fare, dimostrare, costruire [o] sviluppare realmente un prodotto o una soluzione sotto condizioni e standard definiti». (p. 94 del testo originale). Anche Comoglio (2002) offre un confronto tra test tipici e compiti autentici (Tab. 3.6 p. 95). Ma già Resnick (1987) aveva identificato le discontinuita tra apprendimento scolastico ed extrascolastico, distinguendone 4: Scuola Attività cognitiva extra-scolastica a) Si concentra sulla prestazione individuale È condivisa socialmente; b) Incoraggia il pensiero privo di supporti Include strumenti cognitivi c) Coltiva il pensiero simbolico È direttamente coinvolta con oggetti e situazioni d) Insegna capacità e conoscenze generali Forma alle competenze specifiche. Riassumendo, le variabili che entrano in gioco nella valutazione dell'apprendimento scolastico sono: a ) l'identificazione dell'oggetto (cosa sottoporre a verifica), orientato da da didattiche per obiettivi disciplinari o per competenze generali; b) i destinatari delle verifiche, che puo essere il singolo studente o lo studente in gruppo; c) le modalità delle rilevazioni, di tipo più descrittivo o misurativo; d ) il soggetto della valutazione (chi valuta), che preferenzialmente è l'insegnante, ma in funzione di diversi contesti e modalità di apprendimento la responsabilità della valutazione è dello studente o di un gruppo di studenti. Le funzioni della valutazione Molti autori hanno fornito una classificazione delle diverse funzIoni della valutazione ma non risulta esserci un accordo generale. Scriven, pensando al complesso di azioni didattiche da intraprendere in contesti educativi, definisce la funzione formativa e quella sommativa. • Formativa: quando la rilevazione delle informazioni sul procedere degli apprendimenti (verifiche individuali e di gruppo) è compiuta allo scopo di rimodellare il processo dell’istruzione. Il meccanismo di retroazione è alla base di questo concetto. Puo essere: - diagnostica (per individuare modalità o difficoltà dello studente); - prognostica (per interpretare se lo studente puo seguire un modulo di insegnamento) • Sommativa: quando la rilevazione delle informazioni sul procedere degli apprendimenti è compiuta allo scopo di controllare il raggiungimento degli obiettivi posti dall’azione didattica. Essa si chiama sommativa in quanto avviene in fase terminale di un processo. De Landsheere (1971) fornisce un’altra classificazione delle funzioni della valutazione. Diagnostica: quando si cerca di scandagliare le possibili lacune o difficoltà dello studente per mettere a punto le migliori e più efficaci procedure didattiche; Misurativa: quando si prova a raggiungere alcune quantificazioni degli apprendimenti, nel tempo rispetto a se stesso (profitto), rispetto alla classe o a gruppi più ampi; Predittiva e prognostica: quando si vuole avanzare delle previsioni sulla base dei risultati presenti rispetto a sviluppi successivi. Un quadro di sintesi degli strumenti di verifica scolastica Gli strumenti che possono essere costruiti ed utilizzati per le diverse esigenze valutative sono molteplici. Gli strumenti di verifica più utilizzati continuano ad essere quelli più tradizionali: le prove scritte sono presenti nell’82% delle elementari e nel 74% delle superiori, le interrogazioni non programmate nel 51% delle elementari e nel 62% delle superiori. I test di profitto costruiti dagli insegnanti (39-48%) sembrano prevalere su quelli suggeriti dai libri di testo (29-39%) e sicuramente su quelli forniti da istituti specializzati (3-7%). Probabilmente questi ultimi sono ancora poco conosciuti, diffusi o reperibili, ma anche la buona percentuale relativa ai test costruiti dagli insegnanti lascia molti dubbi interpretativi.12 I l compito del docente è allora quello di prendere decisioni sullo strumento che meglio si adatta, coerentemente agli obiettivi di verifica individuati e ai limiti imposti dal contesto in cui opera; l’affidabilità dei diversi strumenti di rilevazione si ottiene controllando le diverse fasi di costruzione e utilizzazione, ma anche disponendo di un accordo nelle scale di misura a cui essi rimandano. Quali prove adottare? • Le prove strutturate, offrendo sia uno stimolo chiuso sia modalità di risposta predefinite, offrono maggiori garanzie di affidabilità nell’attribuzione di punteggi e voti, ma spesso sono di difficile costruzione o non permettono di indagare specifiche abilità. Stiamo parlando fondamentalmente dei quesiti oggettivi, che possono presentarsi sotto forme di quesiti a scelta multipla, vero/falso, corrispondenze e completamenti; • l e prove semi-strutturate sono quelle che offrono uno stimolo o delle istruzioni di tipo chiuso e un'autonoma elaborazione delle risposte. La chiusura dello stimolo presenta quei vincoli che permettono di presentare a tutti la stessa domanda o situazione problematica, l’apertura della risposta permette invece di esibire i diversi gradi di strutturazione (comprensione e studio) e di originalità che gli studenti possono avere relativamente ai diversi livelli di apprendimento; • l e prove libere, o aperte, ancor più di quelle semi-strutturate sono particolarmente adatte per alcune fasi formative della didattica, e per un approccio dialogico e maggiormente interattivo nella valutazione, ma di difficile utilizzazione in sede di misurazione collegiale. Per i vari tipi di prove, rispetto al grado di apertura/chiusura di stimoli e risposte vedi la tab. 3.9. a p. 103. 12 Indagine IARD sulle condizioni di vita e lavoro nella scuola italiana (Cavalli, 2000) CAPITOLO 4 LE MISURAZIONI IN CAMPO EDUCATIVO Tutte le volte che attuiamo una verifica dobbiamo fare delle scelte. Nell’esprimere una valutazione: - Decidiamo cosa valutare - Selezioniamo alcuni elementi caratteristici - Costruiamo lo strumento di verifica da utilizzare - Decidiamo in quale modo proporlo - Ricorriamo a precise scale di misurazione per costruire punteggi o formulare giudizi di merito. Caratteristiche (requisiti) degli strumenti di misura Validita uno strumento è valido se misura quello che, attraverso il suo impiego, intende misurare (consiste nel grado di corrispondenza tra la misura e cio che si vuole misurare). Affidabilita uno strumento è affidabile se, sottoposto allo stesso stimolo, fornisce la stessa misura. La validita La validità di una misura consiste nel grado di corrispondenza tra quella misura (rilevazione) e cio che si vuole misurare (fenomeno). Garrett (1937) defini un test valido se effettivamente misura cio che si propone di misurare. Cio che è possibile validare non è mai uno strumento in se, ma uno strumento in relazione allo scopo per il quale viene costruito. Cio che a noi interessa che abbia validità non è tanto lo strumento quanto una particolare interpretazione dei dati ricavati dal suo utilizzo. E’ possibile che uno strumento sia valido per misurare un fenomeno diverso da quello che vogliamo misurare. La validità di una misura e successivamente di una valutazione è strettamente correlata al tipo di strumento che si adopera. La validità degli strumenti di misura puo essere verificata relativamente a contenuti, criteri, costrutti e modalità di presentazione. Validita di contenuto: Per valutare gli obiettivi raggiunti o un livello di competenza in un settore, dobbiamo coprire il più ampio spettro di quel settore. Per far questo si possono “campionare” gli elementi da sottoporre a verifica. Il controllo della validità di contenuto si espleta attraverso: o Il riscontro della significatività degli elementi da sottoporre a verifica. Essi dovrebbero essere centrali e utili per la valutazione; o La scelta intenzionale e programmata degli elementi da sottoporre a verifica come rappresentativi del settore di contenuti o della competenza da valutare. Validita di criterio: indica la validità di un test confrontando i suoi risultati con altre misure della stessa abilità rilevate in modo indipendente. Si tratta dunque di utilizzare un’altra misura come criterio per validare la prima. Un modo molto semplice per validare secondo il criterio è quello di prendere i punteggi di un test e verificare se sono correlati con altri punteggi che l’insegnante ha attribuito in modo autonomo ai suoi studenti. Per verificare cosa misura una determinata prova, si potrebbero utilizzare strumenti analoghi o misure diverse come misura-criterio. Trattandosi di una verifica indiretta, lo strumento usato come misura-criterio dev'essere anch'esso attendibile. Il controllo della validità di criterio è possibile se disponiamo di misure simultanee, o fatte in un breve periodo. In questo caso pariamo di validita concorrente (concurrent validity). Ma la misuracriterio puo avvenire anche a distanza di tempo, e in questo caso parliamo di validita predittiva; Validita di costrutto: si riferisce alla bontà di un test giudicata sulla base di quanto i punteggi ricavati dalla prova hanno senso in relazione alle nostre teorie. Come la validità di contenuto, anche la validità di costrutto puo essere verificata solo in relazione a un modello teorico. Le operazioni necessarie per verificare la validità del costrutto prevedono la costruzione di una teoria (definizione di concetti e dei loro rapporti), la scelta di indicatori per ciascun concetto, la misurazione dei concetti, il calcolo delle correlazioni tra gli indici dei concetti misurati e il confronto tra queste correlazioni empiriche e quelle ipotizzate teoricamente tra i concetti. Nel caso in cui le nostre misure facessero riferimento a un costrutto teorico, potremmo a posteriori procedere a un’analisi con i risultati emersi da altre misure che fanno riferimento allo stesso costrutto (validita convergente). Analogamente si puo verificare se misure che fanno riferimento a costrutti diversi fanno registrare basse correlazioni o risultano indipendenti (validita discriminante). Validita di presentazione (o apparente): si riferisce alla bontà di un test valutata in base al suo aspetto da parte di persone che non hanno esperienza di testing. L’aspetto condiziona l’accettazione, l’uso e la circolazione di un test. Con la validazione di presentazione o di facciata (face validity) si introduce il controllo di quegli aspetti qualitativi e intuitivi relativamente all’adeguatezza degli stimoli rispetto ai destinatari previsti. L’affidabilita Lo strumento di misura (a scuola compito o test) per essere affidabile dovrebbe permettere una uniforme rilevazione delle conoscenze e competenze. L’affidabilità di una misura consiste nel 1. grado di precisione con cui puo essere compiuta (in inglese reliable, “che dà affidamento”); 2. garantire un basso livello di interpretabilità e quindi di un uso soggettivo da parte di più persone; 3. l’affidabilità di una prova puo essere considerata un aspetto della sua validità.13 La precisione nelle misurazioni educative dipende da diversi fattori che si presentano nelle verifiche. Riguardano lo strumento di misura, il valutatore e il soggetto esaminato. 1 . Precisione dello strumento: dipende da quanto riesce a fornire uno stimolo uguale per tutti, chiaro, e da quanto permette una registrazione dei dati non soggettiva (condizione tipica delle prove strutturate); 2. Precisione del valutatore: dipende da: - variabilità nell’uso che si puo fare dello strumento; - grado di soggettività del rilevatore nell'attribuzione della misura. 3 . Costanza del soggetto valutato/esaminato – l'incostanza del comportamento degli allievi è collegata a: - incostanza e soggettività del valutatore e - dal tipo di stimolo proposto (cioè al tipo di compito: es. risposte aperte o chiuse), ma puo anche dipendere da condizioni psicofisiche e ambientali. Per verificare il grado di precisione raggiungibile dalla prova ideata si puo consultare la check-list di pag. 115 (Tab 4.1). Le verifiche dell'affidabilità sono molteplici e rimandano ai diversi formati di prove e stimolo, ma in generale, le verifiche empiriche riguardano: - l'omogeneità o coerenza interna; - l'oggettività delle rilevazioni; - l'accordo tra chi interpretai risultati della prova; - la concordanza tra forme parallele; - la stabilità delle reazioni quando viene riproposta la prova. I principali controlli dell'affidabilità delle prove sono sintetizzati nella tab. 4.2 a pag. 115. 13 Secondo Boncori (1993) «se una misurazione non è attendibile, è inutile indagare su altri aspetti della sua validità [...]». Vedi pag. 113 Un esempio di controllo delle validita e dell’affidabilita nella valutazione della competenza di scrittura Per esemplificare il controllo della validità e affidabilità è possibile descrivere la valutazione di una competenza di scrittura. Cosi come si è condotta in una recente indagine internazionale. Nell’indagine IPS (indagine sulla produzione scritta) realizzata dall'IEA14, uno degli obiettivi centrali era di mettere a punto degli standard di riferimento rispetto alla competenza di scrittura in differenti ordini di scuola. Per raggiungere tale obiettivo è stato indispensabile: a) definire validamente cosa intendere per saper scrivere (modello teorico di riferimento = costrutto e contenuto) cioè quali competenze nello scrivere un testo e loro caratteristiche (Fig. 4.1 pag.117); b) mettere a punto una serie di stimoli adeguati (cioè prove di scrittura con istruzioni) alla misurazione di quel costrutto; (vedi Tab. 4.3 p. 11815) c) scegliere un metodo di valutazione affidabile (dalla valutazione globale – olistica – a quella analitica – per tratti; d) costruire affidabili criteri di correzione degli elaborati; e) somministrare le prove ad un rappresentativo (sia per livello scolastico, sia per tipologia di scrittura) gruppo di studenti a livello nazionale; f) elaborare statisticamente i risultati sia degli studenti (per individuare i valori medi delle prestazioni) sia dei valutatori (per controllare l’affidabilità della misura). Le scale di misura Stevens (1946) distinse 4 tipi di scale di misura, alle quali ancora oggi la docimologia fa riferimento: 1) Nominale e 2) Ordinale (scale qualitative) 3) A intervalli e 4) Di rapporti (scale quantitative) Le quattro scale di misura: 1. Scala nominale. Permette di classificare in base all’appartenenza delle singole variabili (dati) a determinate categorie qualitative, alle quali vengono assegnati dei “nomi” 16. Questa scala è utile quando: 14 International Association for the Evaluation of Educational Achievement 15 Modello dell'area dello scrivere scolastico (dominio) utilizzato per la selezione delle prove. Secondo il modello, le dimensioni principali e i fattori che influenzano la produzione scritta sono: 1) processi cognitivi necessari per scrivere; 2) funzioni comunicative; 3) contenuto dello scrivere. Vedi pag. 116 16 Cioè, se le variabili rientrano o no in determinate categorie - si vuole registrare la presenza/assenza (si/no) di un determinato comportamento (es. saper usare alcune strutture linguistiche) - attribuiamo i risultati finali (idoneo/non idoneo) - le dimensioni da rilevare sono complesse e non permettono misurazioni “matematiche”. La scala nominale discrimina e classifica anche se non individua gradi interni. I dati delle scale nominali consentono di calcolare solo le distribuzioni di frequenza (occorrenze) e le percentuali. Nella valutazione di apprendimenti scolastici, la scala nominale è utile per misurare la presenza/assenza di dimensioni che contraddistinguono le competenze (cioè segnali che indicano se uno sa fare una cosa o no). 2. Scala ordinale o graduatorie. Consente di stabilire delle graduatorie, cioè di ordinare rispetto alla maggiore o minore presenza di una determinata caratteristica. Non determina la “differenza precisa”, ma l’ordine: fasce, livelli, bande, ecc... - Le classi o ranghi permettono di ordinare e costituiscono una scala di valutazione (rating scale)17 che stabilisce relazioni di maggioranza, minoranza, uguaglianza tra le qualità delle variabili misurate. Anche in questo caso si parla di qualità della misura, poiche non è possibile classificare la differenza o la distanza precisa tra le singole classi, ma solo il loro rapporto. I voti scolastici sono un esempio di scala ordinale (anche se molti docenti la usano come se fosse a intervalli) perche i voti non sono semplici valori numerici, ma rimandano a concetti di sufficienza, che sono diversi per ogni docente. 3 . Scala a intervalli equivalenti. In questa scala la distanza tra tutti i punti/valori è uguale e costante: pensiamo alla misurazione della temperatura corporea: ad es. sappiamo che 37 è più di 38 ma lo zero è convenzionale in quanto non indica l’assenza della qualità misurata. Per la scuola, un esempio dell'utilizzo di questa scala ci è fornito dall'uso di prove oggettive. Il punteggio totale dei singoli studenti (risposte giuste ai singoli item) consente non solo di dire chi è andato meglio o peggio, ma anche di quanto. Scala a carattere quantitativo: si puo definire la quantità raggiunta dallo studente, calcolare la differenza tra i punteggi e, data la regolarità degli intervalli, confrontare i punteggi tra loro.18 4. Scala di rapporti. In questa scala, invece, lo 0 significa assenza di quella misura: (età e statura sono esempi di variabili misurabili con questa scala). 17 Un esempio di rating scale è la tab. 4.4 a p. 123. 18 Per Gattullo i punteggi di un test non si potevano considerare come misura a intervalli, (bensi graduatorie), ma potevano essere utilizzate come se lo fossero solo per praticità e convenienza. (p. 124-125) Scale e voti La distinzione tra le scale è il primo passo per rendere trasparenti i livelli di misura praticabili. Il secondo è utilizzare una delle scale per differenziare i risultati raccolti con le prove di verifica. In questo passaggio (tra misurazione e valutazione) si incontrano diversi problemi. Ma quali sono i punti problematici nel passaggio tra uso delle scale e voti da mettere? a) In Italia, nei diversi gradi di scuola si usano differenti sistemi di attribuzione di valutazioni; b) le verifiche possono utilizzare diversi strumenti con differenti scale di misura; c) nelle prove strutturate (es. oggettive), a volte è necessario convertire il punteggio su scale ordinali o su scale di intervallo; d) anche quando si usano prove semistrutturate o aperte (che richiedono criteri per l'attribuzione di fasce di livello o voti) si utilizzano procedure di valutazione invece che di misurazione. Ogni forma di verifica dovrebbe rendere possibile il passaggio tra qualità e quantità. - nelle prove strutturate attribuendo valori numerici corrispondenti al numero di risposte esatte; - in quelle semistrutturate o aperte attribuendo voti e giudizi che rimandano all'uso di criteri o descrittori, ma usando sempre valori numerici (anche se meno attendibili rispetto a quelli delle prove strutturate). Riprendendo il lavoro di Remondino (1964), il quadro delle scale di misura in uso nel sistema scolastico italiano risulta cosi aggiornato: • scale nominali (promossi/bocciati; si/no); • scale ordinali (voti, aggettivi, fasce); • scale di intervallo (punti percentili). Descrittori dell’apprendimento Per raggiungere una maggiore qualità di analisi nelle rilevazioni che richiedono scale nominali o ordinali c'è bisogno di: - individuare descrizioni precise degli elementi che caratterizzano gli apprendimenti da verificare; - decidere quali siano più significativi e rilevabili; - costruire uno strumento che permetta di registrarne la presenza e il grado in modo preciso. Domenici definisce tale strumento lista di descrittori dell'apprendimento. «Si tratta di descrivere le singole abilità-criterio in termini di prestazioni e di compiti specifici che in forma positiva, “saper fare”, rappresentino esplicitamente l’avvenuto conseguimento di traguardi formativi minimi, parziali e intermedi, necessari e/o propedeutici (...). Ciascuna descrizione diviene cosi il criterio con il quale confrontare le singole prestazioni appositamente sollecitate negli allievi per stabilire la adeguatezza di ciascuna di esse o la non adeguatezza rispetto al criterio stesso». (Domenici, 1981). I descrittori vengono utilizzati in assenza di strumenti di misura particolarmente precisi o oggettivi ricorrendo all’osservazione sistematica sul campo di indicatori di obiettivi/competenze, descrivendoli e utilizzando scale di natura nominale o graduatorie (ordinali). Quanto più la descrizione è di natura operativa (e cioè si definiscono chiaramente gli elementi da considerare, si illustrano con esemplificazioni i livelli di adeguatezza al criterio) tanto più l’uso di liste/criteri per la descrizione dell’apprendimento risulta essere valido ed efficace. Nel Quadro di riferimento europeo (QRE, 2002) si ricorre a descrittori di riferimento per definire i livelli di apprendimento della lingua straniera. I descrittori sono formulati “positivamente” (dicono cio che si sa fare), sono “definiti” e “chiari”, “sintetici” e “indipendenti” (cioè non sovrapponibili tra loro). Il Quadro offre un panorama di descrittori in forma gerarchica e multidimensionale ma non fornisce scale di misura perche ha l'obiettivo di presentare un modello di riferimento e non un esplicito sistema di valutazione. Il Quadro di riferimento delle lingue moderne, elaborato dal Consiglio d'Europa, fornisce una suddivisione in tre livelli (A, B, C, a loro volta suddivisi in due sottolivelli). Esigenza di indicatori e di standard La misura degli apprendimenti puo rimandare a standard di riferimento. È utile quindi chiarire sui termini di indicatore e di standard. L'indicatore è uno strumento per la valutazione di determinati fenomeni che permette di compiere comparazioni. Puo essere discusso con due accezioni: 1. come elemento (o variabile) significativo per l'analisi o la classificazione di un determinato fenomeno; 2. come elaborazione statistica sulla base di dati precedentemente elaborati. Nella prima accezione, parliamo di indicatore tutte le volte che scegliamo un elemento come significativo per la comprensione di un fenomeno. In un contesto scolastico la scelta di indicatori consiste nell'individuazione delle variabili centrali per la messa a fuoco di determinati fenomeni. Nel caso dell’apprendimento si rimanda all’individuazione di elementi discreti o più ampi che segnalano l’acquisizione o meno di determinate conoscenze o competenze. La seconda accezione (sempre più usata in ambito scolastico) proviene da studi di analisi e fenomeni sociali. Per affrontare il rischio della soggettività nell'analisi di fenomeni complessi si ricorre a elementi oggettivi che possano essere indicatori di tali fenomeni. La caratteristica peculiare di un indicatore è la sua quantificazione, quindi misurazione. L'individuazione di indicatori seri e funzionali è un'operazione complessa (Visalberghi 1989). Nel campo della valutazione dei sistemi scolastici, gli indicatori vengono pubblicati annualmente nel rapporto OCSE19 Educational at a Glance. Con il termine standard si indica il livello di prestazione (punteggio o criterio) prestabilito da utilizzare come riferimento per la valutazione. Per valutare se un risultato è accettabile, devo avere indicazioni sulla soglia di accettabilità o livello di esclusione (cut-off score). STANDARDIZZAZIONE (standard setting): processo che porta alla definizione e individuazione dei punteggi o livelli corrispondenti alle diverse prestazioni (compiuto su base statistica o espresso da esperti). Gli approcci alla misurazione rimandano a strumenti di tipo normativo e criteriali. Nel primo caso si compara il risultato del singolo studente in riferimento a un gruppo di altri studenti (assunto come norma), nel secondo il criterio è assunto come riferimento per la misurazione delle singole prestazioni. (p. 134). 1° approccio: standard normativo. Si usa il rango percentile o valori di media e deviazione standard per definire la posizione dello studente rispetto a una norma (gruppo di riferimento). Differenza tra standard e norma: standard livello convenzionalmente definito che lo studente deve raggiungere o superare norma distribuzione dei punteggi del gruppo assunto come riferimento. 2° approccio: standard criteriale. Si definiscono gli obiettivi da raggiungere e relativi descrittori; si identifica lo standard prestabilito per la prestazione richiesta (da parte di esperti del settore). PROVE STANDARDIZZATE: i diversi quesiti e l'insieme dei compiti richiesti sono dei veri e propri strumenti di misura. Si conosce cioè il grado di difficoltà medio per ogni quesito. - Per esemplificare quesiti e prove di questo tipo si fa riferimento a strumenti costruiti a livello internazionale e tarati su campioni rappresentativi. L'OCSE ha condotto un progetto di indagine sulle competenze di base dei quindicenni, il PISA20 (tab. 4.7. a p. 136). Con questo tipo di prove si puo comparare il livello dello studente sui singoli quesiti o su sul totale delle prove rispetto a standard di riferimento. - Per esemplificare una prova completa utilizzata per la verifica di competenze e la presenza di 19 Organizzazione per la Cooperazione e lo Sviluppo Economico 20 Programme for International Students'Assessment standard di riferimento invece, possiamo richiamare i livelli identificati come livello 3 di literacy (competenza alfabetica funzionale) prodotto nella ricerca IALS-SIALS.21 (fig. 4.6. p. 137): Definizione della competenza alfabetica funzionale: insieme delle capacità necessarie per l'elaborazione e l'utilizzo di materiali stampati comunemente diffusi. Elencazione delle prestazioni e relative prove che individuano la competenza: prove che accertano: 1) competenza lessicale, 2) capacità di riconoscere il significato di parole in un contesto, 3) comprensione di un testo breve e 4) di un testo lungo. (fig. 4.7. p. 138) Livelli/standard di riferimento: per certificare le competenze alfabetiche a fine ciclo di un percorso di apprendistato è prevista anche la rilevazione di livelli di competenza più bassi. Il giudizio e le schede di valutazione Nell’attuale sistema scolastico italiano di istruzione e formazione, i voti sono utilizzati nella scuola secondaria superiore e i giudizi sono utilizzati nella scuola elementare e nella scuola media.22 Ma mentre i voti sono attualmente valutazioni di tipo individuale, i giudizi sono espressione sia individuale sia collegiale. In docimologia, la pluralità di “voci” aumenta il rischio di distorsione delle valutazioni. Periodicamente molti docenti individualmente e collegialmente sono chiamati a esprimere giudizi sia di tipo analitico sia sintetici/globali. I giudizi analitici introducono il problema dell'approssimazione di un giudizio complesso. Mentre per la valutazione disciplinare, (singole aree di insegnamento o materie) si utilizzano scale che raccolgono elementi sugli apprendimenti, per la valutazione della maturazione globale si integrano livelli disciplinari e prospettive didattiche per le diverse aree disciplinari. Nella valutazione degli apprendimenti i docenti usano scale di misura a cinque livelli: A, B, C, D, E. (Vedi tab. 4.8. p. 141). Nella valutazione globale si descrivono una serie di aspetti, con riferimento a possibili scale di misura. 21 International Adult Literacy Survey – Second International Literacy Survey. (Indagine internazionale sul letteratismo della popolazione adulta) – 1994-2000. 22 Focus dalle note: - Legge Moratti 53/2003, trasformazione sistema scolastico nazionale: La valutazione degli studenti e del periodo didattico è affidata ai docenti, l'INVALSI effettua verifiche sugli studenti e sulla qualità dell'offerta formativa, l'esame di Stato si svolge su prove organizzate dalle commissioni e su prove predisposte dall'INVALSI. - C.M. 167/1993 informa che D.M. 5/5/93 decreta un nuovo modello di scheda personale per la valutazione degli alunni della scuola media. - Dal 1996 (C.M. 491/1996) i modelli di valutazione sono stati modificati per le scuole elementare e per la secondaria di I grado, l’espressione avviene su scala di 5 livelli. (Questo dice il libro, nei fatti oggi la valutazione è NUMERICA, il libro è stato scritto ben 15 anni fa). La sintesi valutativa di un giudizio deve essere significativa rispetto agli obiettivi e comprensibile ai destinatari. Il livello globale di maturazione I giudizi valutativi sono formulati sulla base di descrittori concordati dai diversi docenti (es: elementi relativi all'apprendimento, alle relazioni sociali e al contesto di studio). Da un punto di vista docimologico per la formulazione di un giudizio analitico (di singolo docente) e sintetico (di consiglio o gruppi di docenti) si pongono diverse questioni che rimandano alla capacità dei docenti di: - individuare e concordare una serie di indicatori comuni; - esplicitare la misurabilità che quelle dimensioni trovano nelle diverse discipline; - comunicare a livello collegiale i livelli per le singole discipline o aree disciplinari; - sintetizzare le varie rilevazioni e giudizi in una formulazione globale chiara e comprensibile per i previsti destinatari. Nel giudizio sintetico finale si esprimono dimensioni legate allo studente. Alle scuole medie riguardano: conseguimento di apprendimenti, socializzazione nel gruppo classe, capacità relazionale, prospettive di prosecuzione. Un giudizio, a differenza del voto (che è una sintesi numerica), è una forma di sintesi linguistica finalizzata a comunicare: a) allo studente i livelli raggiunti e quelli previsti; b) alla famiglia e all’esterno della scuola gli esiti dei percorsi didattici intrapresi. La struttura di un giudizio sintetico Nella composizione di un giudizio valutativo di fine ciclo o periodo didattico possiamo identificare alcuni elementi costanti e altri variabili, cioè non necessariamente presenti. Tra gli elementi costanti possiamo elencare i livelli raggiunti in termini di apprendimento scolastico o di partecipazione alla vita e attività scolastica, tra quelli variabili possiamo individuare il piano degli interessi degli studenti e della loro eventuale partecipazione a momenti didattici specifici. I livelli di comparazione Nella formulazione di un giudizio si possono utilizzare diverse modalità o modelli comparativi. I prevalenti sono: 1. confronto tra una prestazione e un’altra sempre dello stesso allievo, successiva nel tempo; 2. confronto tra le prestazioni di un allievo e gli obiettivi attesi; 3. confronto tra le prestazioni di un allievo e quelle registrate da altri allievi. Giudizi analitici per discipline Prima di esprimere un giudizio sintetico, i docenti della scuola dell'obbligo sono chiamati (a fine quadrimestre o a fine a.s.) a indicare il grado di raggiungimento degli obiettivi. Esemplificando, le procedure per la costruzione di un giudizio analitico per disciplina, sono: • Considerare i diversi elementi di misura utilizzati: alcune sono verifiche di tipo strutturato, altre prove con criterio; ci sono poi osservazioni di determinati comportamenti cognitivi; alcuni risultati sono ricavati dall’analisi del progresso rispetto ai livelli/standard di ingresso. • Pesare i singoli elementi rispetto alla loro specificità: stabilire per i diversi elementi il livello raggiunto rispetto a scale di misura. • Definire i livelli di scala che il giudizio prevede:; per ogni valore della scala prevedere i livelli di attribuzione. Le schede di valutazione nella scuola elementare e media In circa 20 anni, dai Decreti Delegati del 1977 alla Circolare del 491/1996, si sono susseguiti non pochi modelli, tutti alla ricerca di comunicare in modo efficace i risultati della valutazione a scuola: l’osservazione dinamica dei processi e la verifica continua degli apprendimenti. Con la Circolare Ministeriale 491/1996 si uniformano i criteri per la valutazione degli alunni della scuola elementare e dell’istruzione secondaria di primo grado. Il richiamo alla distinzione tra funzione certificativo-comunicativa e funzione didattico-formativa della valutazione si accompagna alla necessità 1) di ridurre il carico redazionale che pesa sull’insegnante e 2) di garantire chiarezza alle informazioni destinate agli alunni e alle loro famiglie. Inoltre l’esigenza di esprimere il giudizio sintetico con una formulazione tra le 5 disponibili (ottimo, distinto, buono, sufficiente, non sufficiente) è stata determinata, anche, dall’esigenza di garantire una coerenza con quanto in vigore per gli esami di licenza della scuola secondaria di I grado. CAPITOLO 5 LA RILEVAZIONE ATTRAVERSO TEST Le prove strutturate solo recentemente hanno trovato ampia diffusione nel sistema scolastico italiano. Esse sono tra i principali strumenti di verifica scolastica utilizzati per assegnare voti o formulare giudizi. Queste prove sono state chiamate in molti modi: prove strutturate di conoscenza, oggettive di profitto o semplicemente test. La pratica del testing, che garantisce una valutazione di ordine quantitativo, è quindi particolarmente indicata per l’accertamento del profitto scolastico. Vantaggi, limiti e pregiudizi La diffusione del testing in Italia è stata ed è ancora controversa. Tra i principali limiti dell’uso dei test nella scuola si ricordano: • Si limita la libertà di espressione degli studenti e di dialogo degli insegnanti: attraverso le prove oggettive non si richiede di esprimersi liberamente nel senso di una creatività di risposta. Anzi si richiede di segnalare la propria risposta tra quelle predefinite nella prova. • Necessità di molto tempo per la costruzione: costruire delle buone prove oggettive non solo richiede del tempo ma anche delle specifiche competenze, non solo disciplinari ma anche relative alla metodologia e tecnica di costruzione di test. • Scarsa collaborazione nella costruzione: di solito i docenti si ritrovano a costruire autonomamente le prove oggettive, impegnando un personale dispendio di energie e una naturale soggettività. La collaborazione nella costruzione insieme al controllo delle diverse fasi della costruzione, permetterebbe invece la condivisione dei compiti, la conseguente riduzione dei carichi e un controllo intersoggettivo. • Casualità delle risposte. • Misurazione solo in alcuni aspetti dell’apprendimento (es. la creatività non viene valutata). • Misurazione del prodotto e non del processo: si è spesso sostenuto che dalla semplice risposta dello studente sia difficile, se non impossibile, risalire al ragionamento sotteso. Addirittura, una risposa esatta potrebbe risultare da ragionamenti in parte errati e viceversa. Per quel che riguarda i principali vantaggi dell’uso dei test nella scuola: • Oggettivita della verifica: l’oggettività consiste nell’eliminazione dell’influenza dei giudizi personali di chi valuta; • Rapidita e facilita d’uso: predisponendo dei fogli di risposta e avendo a disposizione la chiave di correzione si possono in pochi minuti correggere le diverse domande che compongono la prova e calcolare il punteggio totale; • Risparmio di tempo per la valutazione; • Simultaneita delle misurazioni: le prove oggettive consentono di sottoporre nello stesso tempo tutti gli studenti allo stesso tipo di domande; • Riferimento a vaste aree di contenuti; • Recupero individualizzato; • Stimolo a uno studio continuo; • Forme collaborative con studenti e tra docenti: La collaborazione serve a condividere non solo gli obiettivi ma anche gli strumenti delle verifiche. La collaborazione nella costruzione o revisione di prove oggettive è un formidabile strumento formativo (ci si interroga su cosa domandare, come fare le domande, sul peso da assegnare nelle correzioni. Alcune precisazioni terminologiche I test, o prove strutturate possono essere di diverso tipo. Le prove strutturate: • Normalmente sono costituite da test a risposta chiusa in cui l'alunno deve scegliere, tra varie risposte, quella esatta; • Sono oggettive quando è possibile predefinire le risposte corrette per i singoli quesiti; • Si chiamano prove strutturate di conoscenza o test di profitto quelle prove oggettive che riguardano l’accertamento di conoscenza e competenze oggetto di studio scolastico; • Possono essere prove di classe o prove standardizzate: • Le prove oggettive di classe (classroom o informal objective tests) sono comunemente costruite all’interno della situazione scolastica, in classe, dai singoli professori o da un collegio di docenti, con o senza l’ausilio degli studenti. Queste prove sono poi utilizzate durante la prassi didattica per verificare il livello raggiunto dagli studenti su un determinato argomento; • Le prove oggettive tipo o test tipo (standardized objective tests) sono quelle messe a punto in modo tale da permettere un confronto con risultati ottenuti da uno specifico universo di studenti; Le prove standardizzate possono avere come livello di riferimento e confronto una norma o dei criteri. Il riferimento è quindi un metodo per interpretare i risultati a una prova. A tal proposito si distinguono: a) Le prove normative, che permettono di confrontare i risultati di chi si sottopone alla prova con quelli di uno o più gruppi di riferimento che rappresentano la norma. b) Le prove criteriali, che mettono in rapporto le prestazioni dei singoli con una determinata prestazione-tipo. In questo caso il confronto non è con un livello raggiunto da un gruppo di riferimento ma con uno standard predefinito di prestazione. In sintesi: con le prove normative l’interpretazione dei risultati è quindi relativa ai risultati di altri gruppi, con le prove criteriali è assoluta, cioè è rapportata a una buona descrizione della competenza da valutare. Criteri per la progettazione, costruzione e utilizzazione Le prove oggettive si dimostrano particolarmente utili quando si vuole giungere a valutazione di determinate prestazioni per un alto numero di studenti e in breve tempo. Una prova strutturata si presenta come un insieme di stimoli strutturati a soluzione predefinita. Si tratta di mettere a punto: • I l tipo di stimolo: definire la forma del quesito o item (domande a scelta multipla, vero/ falso) o altre forme ( problema, analisi di caso ecc.) che presentano il contesto del problema da sottoporre; • La strutturazione dello stimolo: circoscrivere cioè il campo delle possibili risposte; • La soluzione predefinita: indicare la risposta corretta a priori, ovvero formulare i criteri in base ai quali attribuire un punteggio di correzione. La progettazione di una prove oggettiva richiede una serie di decisioni teoriche e operative. Si tratta di entrare nel merito dei singoli contesti di verifica. Le diverse decisioni sono: • Stabilire gli obiettivi della prova; • Determinare i tempi di utilizzazione; • Specificare la prova; • Formulare i quesiti e le istruzioni; • Attribuire pesature per la correzione; • Eseguire la standardizzazione della prova. Stabilire le finalita della prova Il primo passo da seguire consiste nell’esplicitare quali sono le finalità di valutazione della prova. Si possono catalogare le finalità in 4 categorie: a) Di ingresso (placement): per misurare i prerequisiti e le abilità indispensabili per attivare un’unità formativa b) Diagnostiche (diagnostic): per verificare specifiche difficoltà nell’apprendimento e costruire mirate procedure di recupero c) Regolative del processo (formative): per fornire feed-back allo studente per auto valutarsi e al docente per modificare le didattiche d) Finali/certificative (summative): per assegnare voti, mettere in graduatoria, certificare competenze. Nel rispetto della collocazione sull’asse del tempo didattico e formativo, le differenti prove saranno costruite con modalità differenti, per permettere la più valida misurazione degli obiettivi specifici. È molto probabile che per le prove utilizzate per l’analisi dei prerequisiti e soprattutto nella funzione di verifica formativa si utilizzino forme miste: quesiti più oggettivi e quesiti più aperti. Le diverse finalità e funzioni delle prove forniscono indicazioni sulla tipologia di quesiti da utilizzare e sui tempi di somministrazione. L’ampiezza della prova dovrà considerare sia la durata (tempo di svolgimento), sia il periodo nel quale si svolge (tempo didattico). Determinare gli obiettivi dei quesiti Una buona definizione di obiettivi consiste nell’esatta o almeno più completa possibile definizione dei comportamenti da misurare/valutare. Mager (1972) definisce un buon obiettivo ben formulato quello che esplicita i seguenti elementi: • Cosa deve essere in grado di fare l’allievo per dimostrare di aver raggiunto quell’obiettivo (prestazione/performance) • In quali condizioni l’allievo deve dimostrare di aver raggiunto quell’obiettivo (condizioni)23; • Quali indicatori/parametri dobbiamo adottare per correggere/valutare il raggiungimento di quell’obiettivo (criterio).. Specificare la prova (selezione della forma dei quesiti) Una volta stabilita la finalità della prova e gli obiettivi in generale, la fase successiva consiste nell’individuare il tipo di quesiti da porre e quindi nel pianificare la costruzione della prova. Due sono le forme generali di quesito prevalentemente adoperate per le prove di conoscenza: a 23 Cioè cosa deve fare lo studente per risolvere il problema posto dalla domanda. scelta predefinita e a risposta scritta (tab. 5.3. p. 175). In generale i quesiti strutturati formulati con modalità oggettiva pongono l’allievo di fronte a un’attività di soluzione di un problema (problem solving). Nella scelta della forma di quesito migliore si dovrà quindi considerare: • Il numero delle possibili risposte che si potrebbero fornire a un determinato problema; • la capacità di quel quesito di discriminare tra chi sa risolvere e chi non sa risolvere quel problema. Le forme di quesiti da utilizzare nelle prove oggettive sono di quattro tipi: QUESITI VERO/FALSO: sono i quesiti più semplici da costruire e presentano un’affermazione da considerare vera o falsa; QUESITI A SCELTA MULTIPLA: sono costituiti dal corpo della domanda, che corrisponde alla posizione del problema, e da n alternative di risposta¸ che corrispondono alle proposte di soluzione del problema posto. Una sola è la risposta, le altre risposte sono definite distrattori. I quesiti a scelta multipla permettono di sondare diverse forme di ragionamento, a patto che nella loro costruzione si considerino proprio queste differenti forme di ragionamento e non la scelta per esclusione; QUESITI A COMPLETAMENTO: si costruiscono eliminando uno o più elementi da una fase o da un testo, presentando questo testo “bucato” agli allievi e richiedendo loro di completarlo con gli elementi mancanti. Un particolare tipo di prova di completamento è quello di cloze-tests. Nel cloze (a differenza del completamento) la cancellazione di parole avviene in forma sistematica (ad esempio una ogni 5 o 10 parole) e il testo è più lungo. Il lettore ricostruisce il significato della parola mancante aiutandosi con il testo presente. Le diverse alternative di risposta sono formulate al termine del testo. Sono prove utilizzate per la misura della leggibilità e della comprensione dei testi scritti. Per la correzione si contano i buchi riempiti e il punteggio complessivo è in base alla percentuale sul totale dei buchi. QUESITI A CORRISPONDENZA: si tratta di stabilire un collegamento, una corrispondenza tra due o più serie/elenchi di dati. Si costruiscono due elenchi e si chiede di far corrispondere, di mettere in relazione i due elenchi attraverso frecce o altre forme di corrispondenza. Formulare i quesiti Prima di affrontare la costruzione dei differenti tipi di quesiti è indispensabile sottolineare alcune regole generali, valide a prescindere dal tipo di quesiti che si costruiranno. Queste avvertenze, e relative giustificazioni servono a ricordare che l'uso delle prove oggettive non deve suscitare ambiguità, altrimenti vengono a mancare i presupposti di validità, attendibilità e oggettività degli strumenti di misurazione costruiti (vedi tab. 5.4. p. 179). Le regole più importanti sono: - usare un linguaggio semplice; - stimoli brevi ed essenziali; - non fare tranelli; - non chiedere cose banali; - i distrattori devono essere adeguati alle abilità degli studenti. La somministrazione Una volta terminata la costruzione della prova oggettiva, dovremmo verificarne l’idoneità complessiva come strumento di misura. La prova migliore consiste nell’analizzare i risultati che un gruppo di studenti offre a una prima somministrazione, che chiameremo di prova o pilota (try-out test). La somministrazione finale dovrà rispettare una serie di condizioni e tener conto di determinanti fattori. Alcuni elementi da considerare: (p. 184-185) 1. Gli studenti sono sufficientemente motivati allo svolgimento della prova? Bisogna chiarire il fine in modo che gli studenti diano il giusto peso alla prova e trovino più motivazione a fare da soli che a collaborare durante lo svolgimento; 2. Ci sono istruzioni predefinite (da leggere prima di sottoporsi alla prova)? Non è obbligatorio ma se sono presenti devono essere chiare e concise; 3. In che modo si somministra? Collettiva in classe? (qui gestione della classe obbligatoria) Solo a piccoli gruppi? 4. Il somministratore è l’insegnate di classe? 5. Il test è “carta e matita” o su computer? 6. I tempi sono chiari e rispettati da tutti? Spesso il tempo aggiuntivo per il completamento è dannoso per tutti. Quelli che ne fanno richiesta talvolta lo usano per consultare i compagni, quelli che hanno finito lo sfruttano in altre attività, magari disturbando. Il rispetto del tempo è un’altra garanzia dell’oggettività della misura. Dalla misurazione alla valutazione Quando la verifica avviene per mezzo di prove strutturate (test), possiamo utilizzare i punteggi (cioè i risultati) per attribuire i voti. Per leggere, comprendere e interpretare i punteggi possiamo ricorrere a diversi metodi statistici. Il presupposto è che i risultati siano delle misurazioni. I risultati a prove strutturate possono essere interpretati rispetto a criteri (parliamo di riferimenti assoluti, in quanto definiamo la soglia che delimita il raggiungimento di una prestazione – cut-off score) o a norme (il riferimento è relativo alla distribuzione dei risultati). Una delle potenzialità delle prove struttura risiede proprio nella possibilità di ricorrere a standard di riferimento o a norme statistiche. Analisi dei quesiti Prima di correggere i quesiti è necessario analizzarli. L’analisi dei quesiti si definisce Item analysis serie di controlli di natura statistica che aiutano a determinare se e quanto i singoli quesiti permettono di misurare con precisione. Un primo controllo sui singoli quesiti è: Calcolo dell’indice di facilita/difficolta: si basa sul presupposto che se un quesito è troppo facile, al quale cioè rispondono bene quasi tutti, ci fornisce poche informazioni. Se, invece, è troppo difficile, poche risposte giuste o troppe omissioni, allora è probabile che o è stato mal formulato oppure richiede conoscenze e competenze troppo alte. Un buon quesito non dovrebbe essere troppo difficile (valori superiori a 0,70), ne troppo facile (valori inferiori a 0,30). Dovrebbe avere difficoltà media, compresa tra 0,30 e 0,70.24 Nc ( numero risposte corrette ) N ( numero studenti ) (Pc: proporzione di risposte corrette) o Indice facilità (Pc)= o Indice difficoltà (Ps)= Ns ( numerorisposte corrette ) N ( numero studenti ) (Ps: proporzione di risposte sbagliate) E poi il Calcolo della selettivita (o discriminativita), cioè della capacità dei quesiti di discriminare tra chi va bene e chi no. Un buon quesito deve avere una discriminatività media compresa tra 0.20 e 0.40. La formula per calcolarlo è la seguente: (p. 188) o Indice di discriminatività= d= IMP = M−P N o o migliore/peggiore= Esup − Einf N Esup o M (punteggio ottenuto dai soggetti all’estremo superiore/migliori) Einf o P (punteggio ottenuto dai soggetti all’estremo inferiore/peggiori) N (numero soggetti di un gruppo) IMP (indice migliori/peggiori) 24 L'indice di facilità si calcola sulla singola domanda e non sulla prova, per questo il numero di studenti che rispondono correttamente è uguale al numero di risposte esatte. Punteggi e pesi nella correzione Una volta controllato il test come strumento di misura, si procede al calcolo dei punteggi e all'attribuzione dei voti. Va risolto pero il problema della “casualità” (quando gli studenti rispondono a caso perche non sanno la risposta), che puo falsare il risultato del test (lo studente tira a caso e azzecca). Per bilanciare questo limite ci sono almeno 2 possibilità: 1. Calcolo delle risposte giuste senza omissioni. Si dice agli studenti di non rispondere se non sanno la risposta e che le risposte non date non vengono conteggiate (si fa la percentuale delle risposte giuste sul totale delle risposte valide)25. 2. Pesatura delle risposte considerando la probabilità del caso. Si calcola la probabilità di risposte date a caso e se ne tiene conto nella pesatura delle risposte. Una formula per la pesatura della casualità26 è questa: P = (E – S/n-1)K P= punteggio con penalizzazione dell'errore E= n. risposte esatte dello studente S= n. risposte sbagliate N= n. possibilità di risposta (scelta multipla=4/5, vero/falso=2) K= peso attribuito a ciascun item. Riguardo al peso da attribuire al tipo di quesito bisogna considerare il suo grado di difficoltà, si possono adottare 2 metodi complementari: - in funzione della tassonomia di obiettivi (in base all'importanza dell'obiettivo in una possibile gerarchia); - in funzione del numero di alternative possibili (più alternative = più peso alle risposte corrette). Nelle prove del PISA27 sono stati previsti diversi tipi di quesiti, a risposta preformulata o aperta. Quelli a risposta preformulata sono: ‒ a scelta multipla (4 o 5 alternative, una sola esatta); ‒ plurime a scelta multipla (v/f). Quelli a risposta aperta sono: ‒ a risposta univoca (formulazione di una breve risposta che puo rientrare in una ristretta gamma di possibilità oppure obbligata); ‒ a risposta breve (formulazione di una risposta breve che puo essere personalizzata); ‒ a risposta argomentata (si puo spaziare tra molte possibilità, possono richiedere anche l'espressione di un giudizio personale). Il punteggio che ricaviamo dalla fase di correzione, con o senza calcolo di penalizzazione, e con 25 Questo metodo è valido solo se le omissioni sono ben distribuite, ad esempio non va bene se uno studente risponde solo a 1 domanda. 26 Nel libro è definita “penalizzazione dell'errore” (p. 189) 27 (Programme for International Students's Assessment). l’eventuale pesatura dei quesiti, si chiama PUNTEGGIO GREZZO. Esso è la base quantitativa che permette di analizzare l'andamento degli apprendimenti attraverso determinati confronti: ‒ dello studente nel tempo (confronto diacronico tra più prove); ‒ tra gli studenti contestualmente (confronto sincronico classe/gruppo); ‒ tra gruppi di studenti nel tempo (confronto diacronico classe/gruppo). Uso di standard in una prova criteriale Le prove criteriali permettono di distinguere chi ha raggiunto un certo livello di padronanza. Per decidere a riguardo è necessario un criterio, che possiamo assumere come standard di riferimento. Lo standard o livello soglia puo essere riferito alla: ‒ velocità di esecuzione; ‒ precisione nella prestazione; ‒ percentuale di quesiti risolti correttamente (che è il criterio più adottato). Per la definizione di standard e prove criteriali la letteratura operativa rimanda all'esperienza sul campo. Gronlund (1988) indica come procedura quella di «decidere arbitrariamente gli standard e aggiustarli in alto o in basso a seconda del contesto» (a p. 193 Gronlund offre una serie di suggerimenti per l'aggiustamento dello standard). Descrizione e valutazione dei punteggi a una prova normativa Un primo livello di lettura dei risultati a una prova strutturata consiste nella loro descrizione, cioè nell'analisi della distribuzione dei punteggi grezzi. Davanti a una sequenza di nomi e punteggi c'è bisogno di una lettura sintetica, che serve a capire come gli studenti sono andati, soprattutto rispetto al gruppo, e al gruppo classe in generale. Vediamo ora alcune misure utili alla lettura dei dati: - gamma: differenza tra punteggio minimo e massimo, è un primo indicatore di ampiezza e differenza tra i punteggi; - graduatoria: è un elenco ordinato dei punteggi, con la frequenza dei singoli punteggi. considerando che l'ampiezza dei gruppi di studenti puo essere diversa, è preferibile convertire i punteggi grezzi in e la graduatoria in ranghi percentili. - ranghi percentili: indicano la posizione di ogni studente in un gruppo in termini di percentuale di studenti che ottengono un punteggio inferiore o uguale a esso. Per convertire il punteggio grezzo si utilizza questa formula: rango percentile = n. stud. con punteggio più basso + n. stud. con stesso punteggio N studenti del gruppo I ranghi percentili esprimono la percentuale di studenti con punteggio inferiore a un certo livello e non la percentuale di quesiti risposti correttamente. La distribuzione dei ranghi è sempre relativa al gruppo considerato. Per sintetizzare ulteriormente le posizioni della graduatoria si possono raggruppare in fasce. - media: da considerare per avere indicazioni più precise sull'andamento complessivo dei punteggi, rileva quanti studenti sono al di sotto o al di sopra di questo valore. Confrontando media aritmetica e massimo teorico si verifica la percentuale media di facilita alla prova, utile punto di riferimento quando si è definita una soglia di accettabilità, cioè quando si adotta un criterio di confronto assoluto. Considerando pero che alcuni valori possono essere molto distanti dalla media, c'è bisogno di un indice che indichi la variabilità rispetto alla media, cioè quanto i risultati si discostano da quel valore. Questo dato si ottiene con il calcolo della deviazione standard. - deviazione standard: indica la dispersione dei punteggi intorno alla media, per ottenerlo si calcola la distanza tra ogni valore e il valore medio, con la formula a p. 199 (era troppo difficile da scrivere!) Con i valori di media e deviazione standard si puo valutare l'andamento complessivo di un gruppo di studenti. La media permette di controllare i risultati complessivi; la dispersione, indicando l'omogeneità del gruppo, fornisce un criterio sintetico della variabilità al suo interno. I punteggi possono considerarsi omogenei quando la deviazione standard è contenuta nel 15-20% della media. Standardizzazione dei punteggi I punteggi riportati da uno studente diventano significativi se possono essere confrontati: - con altre prove dello stesso studente (non si puo usare il punteggio grezzo) - con prove di altri studenti dello stesso gruppo - con altri gruppi di riferimento (cioè con una possibile norma; qui è necessario conoscere la distribuzione dei punteggi a quel test su un campione normale28). Per confrontare con punteggi precedenti e con punteggi rappresentativi, c'è bisogno dei punteggi standardizzati, cioè della trasformazione dei punteggi grezzi in punteggi che esprimano la distanza del singolo punteggio dalla media. I punti standardizzati più conosciuti sono i punti Z e i punti T. (sono uguali, solo che la trasformazione in punti T, aggiungendo una costante a tutti i punteggi, esprime tutti valori positivi). 28 Cfr. curva di Gauss e distribuzione normale, fig. 5.11 p. 204). Punti Z standardizzati Zi= xi – xm/σ Punti T standardizzati Ti= 50+10 Zi xi= punteggio grezzo xm= punteggio medio σ= deviazione standard Quando si vuole comparare i risultati dei singoli con quelli di campioni rappresentativi il confronto è con lo standard di riferimento (definito da processi di standardizzazione dei punteggi su gruppi rappresentativi). Le prove di classe, dopo opportune messe a punto, possono essere precisi strumenti di misura. Per procedere alla standardizzazione di una prova è necessario eseguire queste operazioni: - somministrare la prova a un gruppo di studenti (try-out, pilot study); - correggere e analizzare le domande (scartare/migliorare); - somministrare la prova a un campione rappresentativo (try-out, main study); - analizzare distribuzione dei punteggi e individuare il criterio di riferimento; - mettere a punto un manuale per successive somministrazioni e analisi dei risultati. Dai punteggi ai voti: alcune trasformazioni Spesso c'è bisogno di trasformare i punteggi a una prova strutturata in valutazioni. In alcuni casi, quando è frequente l'uso congiunto di più test anche di tipo diverso, si ricorre a rappresentazioni grafiche, chiamate “profili”. Un sistema per generalizzare i punteggi a un'unica prova è quello di riportarli a fasce di livello, in modo da avere contenitori di punteggi che tengano conto dell'andamento medio e della variabilità dei punteggi, e che ne permettano la trasformazione in scale conosciute e accettate. La più conosciuta è la distribuzione pentenaria: utilizzando intervalli di punteggio pari a una deviazione standard (1σ) si distribuiscono i punteggi rilevati con la prova strutturata in 5 fasce di livello (E, D, C, B, A), con la fascia C che raccoglie i punteggi intorno alla media. La distribuzione pentenaria permette di dividere i punteggi e compararli rispetto a una distribuzione teorica normale (come curva di Gauss). Il confronto delle percentuali dei punteggi di una classe con quelle indicate dalla distribuzione normale, indica se la situazione di apprendimento è casuale o si discosta da esse e in quale direzione. L'esito finale di una didattica efficace è una distribuzione di punteggi che vede la gran parte degli allievi raggiungere punteggi positivi. La distribuzione pentenaria permette di attribuire voti su una scala a cinque valori. Confrontare i risultati degli studenti con una distribuzione “normale” puo essere molto significativo se si utilizzano strumenti standardizzati a livello nazionale (o internazionale), perche offrono la possibilità di paragonarsi a uno standard (es. prove IEA), anche se questa pratica non rientra nella prassi quotidiana della didattica, dove spesso (soprattutto alle superiori) si preferisce utilizzare i risultati delle prove strutturate per attribuire voti in decimi. In questo caso Gattullo (1968) ipotizza una trasformazione dei punteggi con una formula che tenga conto della distribuzione dei voti e dei punteggi. Si assume quindi come media=6 e come deviazione standard=1, secondo questa formula: Voto in decimi: 6= X – M/σ CAPITOLO 6 ALTRE FORME DI RILEVAZIONE Le misurazioni degli apprendimenti condotte con i test permettono di comparare e di stabilire graduatorie. I punteggi a quelle prove offrono, infatti, la possibilità di rapportare i risultati degli studenti rispetto alla media della classe o di gruppi più ampi. In alcuni casi la comparazione è addirittura con campioni rappresentativi di livello e quindi con standard di riferimento. Inoltre, da sempre nella scuola e nel mondo formativo in genere, oltre alla logica comparativa e di graduatorie si ricorre al confronto tra una determinata prestazione individuale dell’allievo e determinati criteri di padronanza o di adeguatezza di una data competenza. Per verificare ad esempio l’abilità di una allievo nella scrittura di un determinato tipo di testo, lo si sottopone a un compito di produzione scritta specifica e successivamente si valuta la sua prestazione con un modello di adeguatezza di quel tipo di scrittura. Valutazione contestualizzata e alternativa ai test Dagli anni novanta in Italia ma precedentemente in molti altri paesi, il dibattito sulle misurazioni e verifiche scolastiche ha sviluppato numerose critiche alle forme strutturate del testing poiche quest’ultimo risulta scarsamente rilevante per la vita extrascolastica (idea atomistica). Per esempio, l’idea che attraverso un campione di domande a scena multipla si possano accertare determinate competenze è entrata in crisi. Rilevazioni più contestualizzate, che richiedono compiti in situazioni realistiche sono risultate più funzionali. SuI piano teorico ed epistemologico Howard Gardner ha fornito diversi spunti sulle prove “aperte” su forme di verifiche più contestualizzate e sull’esigenza in generale di pensare a forme di educazione e a modalità di valutazione diverse, più vicine all’apprendistato che al tradizionale contesto scolastico. L’idea è quella di pensare ai contesti scolastici come luoghi di formazione nei quali la trasmissione di conoscenze lasci spazio, gradualmente e progressivamente, a forme di cocostruzione delle conoscenze, all’acquisizione di competenze, allo sviluppo delle diverse intelligenze. I voti riguarderanno abilità e processi che richiedono di integrare conoscenze, fare, costruire, sviluppare prodotti. E nella valutazione di questi processi si dovranno considerare le dimensioni “esecuzione” e “prodotto”. Questioni docimologiche: 1. Come descrivere e rilevare il processo (forme di svolgimento del compito)? 2. Come misurare gli aspetti del prodotto? Metodi osservativi e indicatori L’uso di indicatori L’indicatore è un elemento o variabile significativa e centrale per l’analisi o classificazione di un fenomeno. In molte delle occasioni di verifica e di esercitazione scolastica degli apprendimenti ricorriamo all’uso di indicatori (liste di controllo, scale di valutazione). Da un punto di vista docimologico le domande che ci porremo sono: • Come si individuano gli indicatori? Sono essi validi rispetto all’insieme che vogliamo valutare? • Gli indicatori prescelti permettono di raggiungere un accordo nella misurazione da parte di più valutatori? C’è affidabilità nelle misurazioni? Inoltre quando ci troviamo a mettere a punto schede con indicatori dobbiamo considerare anche i seguenti problemi docimologici: • Definire l’ampiezza/costrutto dell’abilità da valutare • Selezionare o campionare gli indicatori possibili • Stabilire l’ampiezza e ripartizione della scala di punteggi o voti da considerare • Prevedere l’uso di aggettivi o espressioni per marcare le singole fasce dei valori di scala (descrittori) • Utilizzare collegialmente le schede per addestrarsi al loro uso misurativo: l’unico modo per verificare il grado di precisione e affidabilità nella misura raggiungibile dalle schede con indicatori è la sperimentazione sul campo; il controllo dell’affidabilità consiste nell’accertare il grado di accordo che si raggiunge nell’uso autonomo da parte di più valutatori. La formula per calcolare l’indice di accordo nell’osservazione e rilevazione con indicatori è questa (Braga, Tosi, 1995): Indice di accordo = 100 x ACCORDI ACCORDI + DISACCORDI Si ritiene soddisfacente un accordo superiore all'80% tra due correttori valutatori. Osservazioni sistematiche L’osservazione sistematica è lo strumento preferenziale quando vogliamo verificare l’acquisizione di determinate abilità procedurali e rivolgiamo la nostra attenzione a prove pratiche. Gli indicatori, nelle forme di liste di controllo o di scale di valutazione, offrono la possibilità di raggiungere un alto grado di accordo tra osservatori indipendenti. Si tratta di un metodo di analisi qualitativa che, almeno per il primo ciclo della scuola dell'obbligo, sembra aver soppiantato i procedimenti misurativi tradizionali. Questo per due motivi fondamentali: - l'osservazione e' collegata alla comprensione, mentre la misurazione al giudizio e percio appare uno strumento più utile; - l'osservazione permette di raggiungere uno degli obiettivi prioritari della scuola: quello di promuovere i processi, sostenerli e rinforzarli. L'osservazione sistematica è una metodologia rigorosa che porta alla produzione di una documentazione utile sia ai fini autovalutativi (lo studente puo accedervi e monitorare i propri progressi), sia come testimonianza del lavoro svolto all'interno della scuola. L'oggetto dell'analisi è il comportamento dei soggetti che apprendono, osservato nello svolgimento delle attività didattiche, la valutazione entra percio nel processo di insegnamento-apprendimento, smette di essere la parte conclusiva del percorso didattico e si inserisce nella costruzione e nella applicazione degli interventi formativi. Principali distorsioni: - gli studenti sono consapevoli di essere osservati e possono modificare il loro (vedi tab. 6.5. p. 223) comportamento; - i docenti osservatori possono nutrire delle aspettative e interpretare soggettivamente i risultati. Dimensioni da tenere sotto controllo Occorre poter controllare le diverse dimensioni che entrano in gioco nelle osservazioni strutturate. Le dimensioni da tenere sotto controllo sono: le eventuali istruzioni assegnate che regolano la prestazione che si sottopone a rilevazione, la chiarezza negli indicatori che guidano l’osservazione29, la forma di registrazione, la figura e l’interferenza dell’osservatore (Fig. 6.1 p. 223). La definizione di descrittori di apprendimento permette di verificare l’avvenuto conseguimento di traguardi formativi minimi, parziali, intermedi, necessari e/o propedeutici. Sono quindi strumento di rilevazione di comportamenti e competenze. Ciascuna descrizione diviene cosi il criterio con il quale confrontare le singole prestazioni sollecitate negli allievi, per stabilire l’adeguatezza di ciascuna di esse rispetto al criterio stesso (Domenici, 1981). Per la registrazione delle osservazioni (e successivamente la valutazione delle procedure) si ricorre alle seguenti tecniche di osservazione: - forme descrittive aperte (brevi episodi); - liste di controllo o griglie di osservazione (check-lists); 29 cioè cosa mettere a fuoco con l’osservazione; determina fortemente il grado di validità e di affidabilità di tutta la procedura. Quanto più l’indicatore è esplicitato in termini di descrittori da sottoporre a osservazione, tanto più il grado di precisione e l’affidabilità nella rilevazione è accurato. - scale di valutazione (rating-scales). Addestrarsi alla costruzione di strumenti osservativi Le fasi che il gruppo di valutazione (gli osservatori) dovrà seguire per l’addestramento all’uso di sistemi e osservazioni sistematiche sono: • raggiungere un iniziale accordo sulle finalità dell’osservazione; • identificare gli indicatori da utilizzare e un sistema di codifica; • costruire insieme lo strumento per la rilevazione; • verificare l’accordo intersoggettivo nell’uso dello strumento ed eventualmente revisionare indicatori e sistema di codifica. Descrittori e rilevazione delle competenze Mentre gli indicatori indicano gli elementi o dimensioni fondamentali (macroscopici, molari) da considerare nella valutazione, i descrittori offrono una loro esplicitazione, vale a dire una descrizione analitica dei comportamenti distintivi di un determinato processo o fenomeno. La lista di descrittori esemplificata (tab. 6.7. p. 230) è stata costruita in ambito scolastico da insegnanti di scuola elementare (Domenici, 1981). Essa è relativa all’apprendimento della matematica ed è stata utilizzata in riferimento a determinate prove di verifica, in ingresso e in uscita delle classi. In pratica, per compilare una scheda di questo tipo è necessario impostare le verifiche di tipo strutturato e/o con prove semistrutturate elaborate in rapporto ai descrittori della lista. Qui i descrittori sono criteri-guida per impostare le verifiche e non elementi di osservazione diretta. L’elaborazione dei descrittori Nella costruzione di liste di descrittori per la valutazione di una determinata competenza o di un livello di prestazioni si possono sostanzialmente seguire 2 strade: partire dalla definizione teorica delle dimensioni fondamentali, o da esempi di prestazioni rilevate su campioni rappresentativi. Per la costruzione e attribuzione dei diversi descrittori ai singoli livelli sono stati infatti considerati i vari metodi esistenti: intuitivi, qualitativi e quantitativi. METODI INTUITIVI: l’approccio è legato all’esperienza di singoli esperti del settore o della competenza da considerare, o di commissioni incaricate di elaborare ed eventualmente sperimentare le scale costruite. Pertanto i docenti possono preparare singolarmente le liste di descrittori, basandosi sulla propria esperienza o confrontandosi con quella degli altri. METODI QUALITATIVI: in questo caso si procede prima a una raccolta sistematica di dati per definire cio che si vuole valutare. Successivamente, si cerca di campionare i diversi descrittori rispetto alle prestazioni e si procede quindi a confronti di merito, a interpretazioni. METODI QUANTITATIVI: l’osservazione e l’interpretazione dei descrittori avviene attraverso l’analisi statistica. Le tecniche sono molteplici e particolarmente sofisticate (analisi discriminate, scaglionamento multidimensionale, modello di Rasch). sostanzialmente i descrittori sono assunti come item e si esaminano i modi in cui gli insegnanti li mettono in scala e li calibrano. Per una valida e affidabile definizione di criteri: - la descrizione delle abilità deve essere condivisa collegialmente; - i descrittori devono essere campioni significativi delle abilità; - rilevazione e misurazione devono poggiare su verifiche coerenti e significative; - il giudizio deve essere coerente con l'uso dei descrittori. La valutazione dell’orale: modalita di conduzione e griglie Mentre nelle prove strutturate e nelle richieste di produzione scritta è possibile eliminare il ruolo dell’esaminatore, nei colloqui è necessario stabilire i suoi limiti e le modalità di intervento. Per utilizzare le interrogazioni e i colloqui come prove di verifica e controllare l’affidabilità e validità di misura risulta importante preparare il contesto della prova e gestirlo coerentemente agli obiettivi della valutazione desiderata. Prepararsi a un'interrogazione, e al colloquio pluridisciplinare, riguarderà certo gli studenti, ma anche i docenti. In ogni caso il vantaggio che una prova orale ha nei confronti di prove oggettive di profitto è che permette di ottenere risposte dirette. Per le prove orali descrittori e criteri sono estremamente utili. I docenti devono mettere a punto una competenza interrogativa (vedi decalogo di Domenici a p. 233). Per la valutazione di prove orali vi sono diversi tipi di griglie costruite in funzione della valutazione e del destinatario. Le categorie devono essere coerenti con le funzioni: - valutazione linguistico-comunicativa; - capacità di interazione in piccolo gruppo; - rilevazione dello studio autonomo. La correzione di elaborati scritti attraverso dimensioni/tratti Quando vogliamo valutare forme di scrittura quali lettere, narrazioni, riassunti, abbiamo bisogno di procedure di correzione e valutazione più sofisticate. A differenza dei quesiti strutturati (che offrono risposte predefinite da scegliere all’interno di un elenco fornito) con i quesiti a risposta scritta e con le prove di scrittura ci troviamo di fronte a strumenti semistrutturati che invitano alla produzione originale delle risposte. Questo tipo di prove permette di attivare abilità produttive in forma diretta. I problemi che si Incontrano nell’uso dei quesiti scritti e prove di scrittura sono sostanzialmente legati all’affidabilità della misura, cioè alla loro correzione e precisione nell’attribuzione di punteggi o valutazioni. Istruzioni, dimensioni e criteri Un primo elemento di distorsione docimologica riguarda la formulazione delle istruzioni o tracce che si forniscono per le produzioni scritte. È indispensabile che lo stimolo sia strutturato, nel senso di uguale e preciso per tutti. A tal fine è indispensabile stabi1ire chiaramente il tema o compito richiesto. Nell’indagine IEA-IPS le istruzioni relative alle diverse prove di scrittura chiarivano le coordinate centrali da utilizzare per la valutazione di tratti: - lo scopo (perche si deve scrivere); - il destinatario (a chi si scrive); - il contenuto (che cosa si deve scrivere); - il tipo di testo (in che modo si deve scrivere); - il tempo/spazio a disposizione. Una volta costruite prove o quesiti con chiare indicazioni per la loro correzione e analisi. Occorre individuare i criteri in base ai quali procedere alla valutazione. Nel caso dell’indagine internazionale sono stati utilizzati due livelli o modalità: - La valutazione globale (olistica): è quella più vicina alla valutazione soggettiva, in -quanto si basa su una prima impressione che considera tutte le caratteristiche della prova; - La valutazione analitica (per tratti o dimensioni): è quella che. Individua specifici aspetti da considerare e cerca il più possibile di mettere il correttore nelle condizioni di misurare in modo rigoroso la prestazione, attraverso indicazioni e descrizioni specifiche. Addestrarsi alla correzione collegiale Il problema dell’affidabilità è forse il principale problema docimologico nella valutazione degli elaborati scritti. Dopo aver ideato una buona prova di scrittura, cioè significativa, valida in riferimento agli obiettivi prefissati e motivante per la scrittura degli studenti, e aver definito i criteri in base ai quali procedere alla valutazione fornendo in caso descrittori o esemplificazioni da seguire, resta il problema di riuscire ad attribuire valori numerici (voti/punteggi) su una scala prefissata con sufficiente precisione e in una prospettiva di oggettività. Senza un opportuno piano di addestramento e formazione dei correttori si rischia quindi di mantenere le differenze di giudizio. Per preparare una sessione di formazione dei correttori allo scopo di incrementare l’affidabilità nella valutazione di prove scritte, le diverse fasi di addestramento devono prevedere i seguenti livelli di intervento: 1. Preparare un manuale di valutazione o in ogni caso una raccolta di indicazioni (indicatori/descrittori/criteri) da utilizzare nelle diverse fasi della formazione. Necessario individuare per ogni tipologia di prova alcuni elaborati modello (benchmark composition); 2. Nel caso di un ampio numero di correttori, organizzare un momento iniziale e plenario per condividere le finalità e modalità di lavoro in piccoli gruppi e individuale; 3. Predisporre piccoli gruppi di lavoro (4-6) con conduttore/moderatore, da sviluppare secondo la seguente metodologia di lavoro: ◦ Leggere individualmente e discutere le indicazioni riportate nel manuale o schede di lavoro; ◦ Valutare individualmente una prova –modello con un tempo prestabilito e utilizzando la stessa griglia di correzione; ◦ Riportare su un cartellone i valori espressi da ciascun membro del gruppo e stimolare la discussione sugli scarti o divergenze più evidenti su una dimensione; ◦ Discutere tutti i valori del gruppo riportati sul cartellone, in modo da modificare i punti di vista, rivedendo eventualmente i propri punteggi; ◦ Chiarire che le discussioni, tranne eccezioni, dovranno proseguire sino al raggiungimento almeno del “consenso” nella valutazione; ◦ Ripetere le fasi precedenti in almeno due diverse sedute per ogni tipologia di scrittura da correggere; ◦ Far esercitare autonomamente (tra una seduta e l'altra) i singoli correttori su altri elaborati. Quando non c'è la possibilità di progettare e svolgere un piano di addestramento, il controllo delle distorsioni valutative dovrebbe almeno prevedere la più chiara definizione della scala di misura e degli indicatori che specificano cosa valutare e relativi descrittori. Le mappe concettuali Le mappe concettuali sono state proposte all’inizio degli anni ’60 presso la Cornell University dal Prof. Joseph Novak, come strumenti per evidenziare i concetti principali e i rispettivi legami all’interno di un argomento. La mappa concettuale fornisce una specie di percorso, visualizza le strade che si possono prendere per collegare i concetti di una proposizione. Il diagramma a V di Gowin l diagramma a "V" di Gowin è uno strumento che aiuta lo studente a organizzare il proprio pensiero e a scoprire la struttura e il significato della conoscenza che egli cerca di acquisire, schematizzando la produzione di conoscenze in situazioni pratiche. Gowin sperimento negli anni 70 una rappresentazione schematica, il diagramma a V, utile a riflettere sulla natura della conoscenza e sul processo di una sua costruzione. Come si costruisce un diagramma a V? All’interno si riportano le domande focali, cioè i problemi intorno ai quali si svolge l’indagine, alla punta si registra il fenomeno che si sta analizzando, sul lato sinistro (versante teorico-concettuale) ci si interroga sui principi, le strutture concettuali alla base del fenomeno studiato, e sul lato destro (versante metodologico) si riportano le asserzioni di conoscenza, le interpretazioni alla luce delle elaborazioni e registrazioni condotte. Tra i due versanti deve esistere un’interazioni attiva, tipica dell’indagine e scientifica. Diagramma a V di Gowin Portfolio e valutazione delle competenze Una delle prime definizioni di portfolio è quella di Arter e Spandel (1992): Una raccolta significativa dei lavori di uno studente che testimonia la storia degli sforzi, dei progressi e dei risultati raggiunti in una o più aree.30 A scuola, il Portfolio è la cartella che contiene una selezione delle diverse prove svolte dagli allievi nel percorso formativo, allestita secondo criteri specifici. Più che uno strumento di valutazione in senso stretto, il portfolio è una modalità di raccolta di 30 La definizione prosegue cosi: «Tale raccolta richiede la partecipazione attiva dello studente nella scelta del contenuto del portfolio; indicazioni utilizzate per la selezione dei contenuti, criteri di giudizio adottati e indicazioni che testimonino l'autoriflessione da parte dello studente sul proprio lavoro.» informazioni utile alla valutazione delle competenze, della loro formazione e cambiamento nel tempo. Assolve a una doppia funzione: valutativa e orientativa e favorisce processi di autovalutazione da parte dello studente. Il portfolio non va quindi inteso come forma di accertamento o di misurazione singola, ma come forma di valutazione integrata che riprende le principali caratteristiche della valutazione definita “autentica”: a. Si riferisce al programma d’istruzione condotto in classe. Agli allievi vengono poste domande significative e problemi rilevanti per le loro esperienze di apprendimento; b. Ha a disposizione testimonianze provenienti da una molteplicità di attività e prestazioni e diversi punti di vista; c. È legato ad attività motivanti di insegnamento-apprendimento in modo da stimolare l’insegnante e gli allievi a fare meglio, in quanto si tratta soprattutto di autovalutazione e autoriflessione; d. Riflette gli standard della classe e non si riferisce a una norma. Tra le diverse forme che puo assumere: Portfolio di lavoro (showcase portfolios): Raccoglie i lavori fatti relativamente alle specifiche competenze; Portfolio di presentazione (collections portfolios): presenta i lavori migliori e si modifica in funzione dei destinatari; Portfolio di valutazione (assessment portfolios): documenta il percorso formativo e raccoglie i lavori e le relative riflessioni fornite dagli studenti. Manifesta il raggiungimento della competenza nel tempo. Un portfolio, come raccolta e testimonianza di lavori svolti per attestare e permettere di valutare, non solo singole prestazioni ma anche l’ evoluzione e lo sviluppo nel tempo in termini di livelli di competenze, deve rispettare alcuni assunti docimologici per essere valido e affidabile nella costruzione di giudizi e attribuzione di misure. Per progettare un portfolio di valutazione, Pellerey (2000) indica otto punti da considerare: 1. Determinare gli obiettivi formativi (da evidenziare nel portfolio). 2. Stabilire il tipo di decisione da prendere sulla base del portfolio (progresso/passaggio di livello). 3. Progettare adeguatamente attività e prove da assegnare agli studenti per raggiungere gli obiettivi. 4. Definire i criteri e stabilire gli standard di riferimento per ogni criterio. 5. Stabilire chi valuterà i pezzi che compongono il portfolio (interni/esterni) 6. Formare adeguatamente formatori e valutatori sulle modalità di giudizio. 7. Insegnare gli argomenti del programma, dare valutazioni da raccogliere nei portfolii, assegnare un giudizio. 8. Secondo le modalità del pt. 2 prendere decisioni basate sulla valutazione dei portfolii. Il rispetto dei singoli punti permetterà di considerare la validità in termini di rappresentatività dei prodotti rispetto al dominio della competenza in esame e l'affidabilità interpretata come grado di accordo sui criteri considerati. La valutazione delle prestazioni attraverso portfolio è stata definita per principio più valida di quella fatta attraverso un test carta e penna, in quanto più autentica.