Attendibilità e Validità esame per STP
Lunedi 18 gennaio 2010 ore 10.30-12.00 (Schadee)
Soluzione
1 In un campione di 400 rispondenti un test normalizzato, W, con media di 12 e standard
deviazione di 4, consistente di 16 item paralleli, ha un alfa di Cronbach di ,84. Si divide
il test W in due test, X e Y, con il metodo di split half pari-dispari. Il rispondente A ha
sul test W un punteggio di 8,0.
1.1Quale è la media prevista del test X ? Giustifica la sua risposta.
La media prevista di test X è 6 ; risposta alternativa : non si può calcolare con precisione
Argomento : Gli item dei test sono paralleli. Prima si aveva 12 punti per 16 item, adesso ci
sono metà item, ed anche la media sarà metà =12/2 =6.
Per la risposta alternativa si nota che nelle descrizione non si dice che tutti item contribuiscono
in uguale misura alla media, ma una risposta di questo tipo ha bisogna di una giustificazione di
questo tipo.
2 punti
Commento : non va bene la risposta 0. Il test è normalizzata, ma non standardizzata.
1.2 Quale è la stima dell’attendibilità del test X ?
L'attendibitità di test X è ,724
Si usa Spearman Brown affid(nuovo) = k*(affidvechio)/[(k-1)affidvecchio+1)
con fattore k di 8/16 = ,5 => (,5*,84)/[1-,5*84] =,42/,58 = 21/299 = ,724.
2 punti
mezzo punto se si usa un fattore di allungamento di 2. si va da un test con 16 item ad una
con 8 item, perciò k= 8/16 = ,5.
Commento : quando si trova una vecchia prova che ha una domanda simile ma con valori
diversi bisogna al meno adeguare i numeri nei calcoli (per alcuni studenti).
1.3 Quale è la correlazione prevista fra test X e Y ?
La correlazione fra due test paralleli è uguale alla correlazione fra i due test.
Un modo alternativo per arrivarci è notare che i due test paralleli (X,Y) misurano lo stesso
costrutto e perciò il coefficiente di validità (correlazione corretto per attenuazione) è 1, perciò
coeffval cor(parte T di X, parte T di Y) = 1 = cor(X,Y)/[aff(X),aff(Y)] =>
cor(X,Y) = 1*aff(X) = 1*aff(Y) = ,724.
2 punti
1.4 Quale è il coefficiente di validità fra test X e Y ?
l coefficiente di validità fra test X e Y è 1.
Misurano lo stesso tratto e sono paralleli
2 punti
Commento domanda 1.3 e 1.4 sono facili se lo studente conosce la terminologia a la rete di
concetti intorno alla affidabilità di un concetto.
1.5 Convertendo i punteggi del test W a punteggi T, quale è il punteggio T del rispondente
A?
Risposta Il punteggio T del rispondente A = 40.
Il rispondente A ha punteggio 8 in un test con distribuzione normale con media 12, sd di 4.
Il punteggio z di A è : (8-12)/4 =- 1.0.
Il punteggio T di A è T=50+10*z = 50- 10= 40.
2 punti
Commento generale, sia per z (negativo) , sia per T <50 sia per numero rispondenti sopra il
punteggio media di T (sopra 50) che sono >200 rispondenti, si fa un mini controllo, il punteggio di
A è sotto la media, perciò tutte le risposte che hanno stanino 6, T>50, Z>0, rispondenti con puntegio
1
maggiore di A <200 sono sbagliate per ragioni ovvi. Tipicamente se errori qui 0 punti, con forse, la
possibilità di un mezzo punto per qualcosa di rilevante. (vedere una domanda in prima
esercitazione ... )
1.6 Trova, per il punteggio T di A il esm (errore standard di misura).
Risposta il esm di A (tutti rispondenti in realtà) = 4.
Il esm=SD(punteggioT)*(1-,aff) = 10*(1-,84) = 4.
2 punti
Commento : molti studenti usano il test W originale con SD(W) = 4, arrivando a un e.s.m di 1,6. 1
punto in meno.
1.7 In quale stanino si trova il rispondente A ?
Risposta in stanino 3
(Stanino 3 corrisponde a valori di z da -,125 a -,75 ; anche Stanino=RND(5+2*z) = 3
1.8 Quali assunti si usano nel rispondere a domanda 1.6 ? (o quale assunto si usa)
Gli assunti sono : la distribuzione degli errori per ogni individuo (sotto prove ripetute) hanno
una distribuzione con varianza uguale per tutti i rispondenti (omoschedasticità) e media 0.
Strettamente parlando, finché non si usa il esm per calcolare un intervallo di fiducia non si fa
uso dall'assunto della normalità delle distribuzione degli errori per ogni individuo.
2 punti
Commento : se manca che sia normale qui non crea problemi, se c'è non viene considerato.
1.9 Quanti rispondenti hanno un punteggio maggiore di A sul test W
Risposta 336 o 337 (naif) o 331 o 332 (vedi commento sotto)
area a sinistra di z=-,1= ,1587, area con z>-,1 = ,8413 che è la probabilità che un rispondente
abbia un valore maggiore di 40. Ci sono 400 rispondenti,
,8413*400 = 336,52.arrotondando 337 (accetto anche 336).
In un senso la precedente risposta è troppo diretto poiché ignora che il valore T di 40
corrisponde ad un intervallo di 39,5 a 40,5, e perciò bisogna considerare la frazione con z
maggiore di -,95 che è 1-.1711. Il numero di persone in questa rea sono 400*,8531= 331,6, da
arrotondare a 332 o 331.
Si può portare avanti l'argomento chiedendo se nello test originale i punteggio sono interi per
effetti di arrotondamento o in qualche altro modo, ma non ci siano informazioni.
Vadano bene, anche senza commenti entrambe le risposte, risposte diverse; se il ragionamento
coinvolge altre considerazioni su intervalli (per punteggi nello test originale) possono essere
considerati.
punti
per la risposta 331 o 332 2 punti
per la risposta 336 o 337 1,5 punti
Commento : molti studenti si fermano al percentuale (84%) che abbia un punteggio maggiore.
Ma si chiede numero di persone. Un punto in meno per questo.
Altri studenti prendono il limite inferiore di stanino 3 come soglia, ma questo (A e dentro
stanino 3) corrisponderebbe alla domanda : : quanti soggetti hanno punteggio uguale o maggiore
di A.
2
2
La seguente matrice di correlazioni presenta le correlazioni fra 3 tratti, X,Y,Z
misurate 2 con due metodi (1,2).
TABELLA 1, matrice di correlazioni, 3 tratti per due metodi (N=400)
____________________________________________________________
Occasione 1
Occasione 2
X1
Y1
Z1
X2
Y2
Z2
X1
1.0
Y1
.46 1.0
Z1
.38 .41 1.0
X2
Y2
Z2
.74
.31
.32
.35
.70
.28
.29
.26
.65
1.0
.50
.36
1.0
.41
1.0
2.1 Secondo una analisi la matrice presenta un piccolo effetto di occasione, della stessa
grandezza per le due occasioni. Lei è d’accordo ? (si o no )
Risposta si, vedere per giustificazione 2.2
2.2 Giustifica la opinione espressa in domanda 2.1.
Per i calcoli si vede per domanda 2.3 sotto, ma è chiaro che dovunque la correlazione fra due
variabili sotto lo stesso metodo sia più elevato che la correlazione fra le stesse variabili con 2
metodi diversi. Questo è una chiara indicazione che ci sono effetti di metodo per metodo1 e per
metodo 2. Perciò ci sono effetti di metodo per entrambe i metodi (molti studenti omettono
questo passo dell'argomento). la correlazione media fra item con metodo 1 è1,25/3 = ,417 e per
metodo 2 1,27/3=,423, o in totale 2,52/6 =,42. La differenza di ,006 fra le due correlazioni
medie non è molto rilevante per 400 casi. Anche le variazioni fra correlazioni con metodo 1
contro questi con metodo 2 sono contenuti (.04 al massimo), perciò si può concludere che ci
sono effetti di metodo e che sono praticamente uguali.
2 punti
Commento : alcuni studenti giocano sulle differenze fra Cor(X1,Y1) e Cor(X2,Y2); dipende
dalla chiarezza dell’argomento usato come si valuta questo. (In generale problematico). Una
differenza di .04 con 400 casi in analisi di regressione o varianza porta ad un
F(1,397) = [(R2c-R2s)/k]/[(1-R2c)/(N-1-2)] = [(.25-.2116)/1]/(.78/397) =
397*.0384/.78 = 19.5 ; che è approssimativo ma di sicuro significativa. Perciò, al
livello di stretta valutazione statistica (assume anche che tengono tutti assunti sulla normalità
etc. che di facciano in questi test) non sono uguale, ma al livello di valutazione rozza, ad occhio,
gli effetti di metodo sono dello stesso orine di grandezza. (Nota : i calcoli qui fatot per la mia
soddisfazione, per la teoria in generale si veda la teoria di regressione e anova, valutazione di
varianza addizionale spiegata. Un alternativa è testare che due correlazioni siano idnetici con
modelli strutturali (in LISREL, AMOS, MPLUS).
2.3 Assuma che non ci sia una correlazione fra l’ effetto di metodo della prima
misurazione e l’effetto di metodo per la seconda misurazione , e dia,
indipendentemente dalle opinioni espresse nelle risposte a domande 2.1 e 2.2, una
stima dell’effetto di metodo per metodo 1 e metodo 2.
L'effetto di metodo 1 e metodo 2 sono più o meno uguale e grande .12
La media delle correlazioni fuori diagonale nel blocco di correlazioni fra tratti con metodi
diversi è, i 1,81/6 = ,301. é chiaro del calcolo in domanda 2.2 che non è molto sensato di dire
che ci sono differenze fra metodo 1 (effetto in media ,4,17) e metodo 2 (effetto in media ,423)
ma è altrettanto chiaro che una differenza in media di ,42-,30=,12 sia rilevante.
2 punti
3
2.4 Assumendo che X1 e X2 siano due misure parallele dello stesso tratto, e che la
correlazione fra loro non sia influenzato di un effetto di metodo, quale è
l'affidabilità delle misura X1 ?
La situazione è una di test-retest fra due test parallele, perciò la correlazione è l'affidabilità (si
veda anche domande 1.3-1.4)
2 punti
3.1 Dia una definizione di validità di facciata, e dia un esempio di un test con validità di
facciata.
Si parla di validità di facciata quando le domande o compiti in un test sono per il
rispondente/cliente/paziente direttamente pertinenti allo scopo del test e le ragioni per il quale lo
prende. Un esempio, un test di calcolo numerico in scuola elementare che consiste di una serie
di domande su elementari moltiplicazioni , divisioni, somme e differenze. Altri esempi rilevanti
sono facili.
2 punti, 1 per la definizione ed 1 per un esempio pertinente.
Commento : molti studenti diano esempi di vaga rilevanza (1 punto in meno) o molto contorti,
(mezzo punto in meno). Personalmente trovo l'esempio in Pedrabisso etc. contorto. (fare test di
calcolo con percentuali)
3.2 A cosa serve la validità di facciata ?
Per la rilevanza delle domande/compiti aumenta la motivazione dello
rispondente/cliente/paziente.
3.3 Dia una definizione di test di velocità ? e definisci una procedura per stimare
l’affidabilità di un test di velocità.
Si parla di un test di velocità (per capacità) quando le domande sono in se facile e dentro la
portata dello rispondente, ma sono tante che è implausibile che si riesca a rispondere a tutte nel
tempo limitato a disposizione. Per trovare un misura di affidabilità si vuole un affidabilità
basata su test-retest fra forme parallele dello test di velocità. Poiché tipicamente un test di
velocità ha tante domande non è difficile costruire forme parallele del test (forme di split half),
correlare i due punteggi ottenuti e applicare la formula di allungamento/accorciamento di
Spearman Brown alla correlazione per tener conto che il test totale sia composto delle due meta.
Il problema di ottenere l'affidabilità richiede un sforzo organizzativo nella somministrazione di
due test (parziali ?), anche a distanza nel tempo ravvicinata, invece di somministrare il test
(completo) una volta sola. Si rimanda al libro e le lezioni e altri esami per una spiegazione
perche il coefficiente alfa applicato ad un test di velocità non va bene.
2 punti, una per la definizione, e una per la procedura. Essenziale è il fatto che la procedura sia
test re-test (mezzo punto) fra forme parallele che si possono correlare e applicare Spearman
Brown (altre procedure con test-retest , anche per situazioni non parallele sono possibili, ma
complicano non poco le analisi e il calcolo).(mezzo punto).
3.4 Dia una definizione di validità di criterio ? e dia un esempio di un criterio in una
procedura di controllare un test per validità di criterio.
Per un criterio si intende una variabile che misura un costrutta essenzialmente senza errori
(affidabilità = 1). Si parla di validità di criterio (validità rispetto ad un criterio) se la correlazione
fra test e criterio sia alta. Un esempio storico sono test di IQ (test) come previsioni di esiti
scolastici (fine anno; voto per diploma, maturità, o laurea) come criterio.
NB qui non si dice che entrambi, test IQ e risultati scolastici complessivi misurano
imperfettamente un 'vero IQ' (ammesso che esista). In un caso cosi si torna a una situazione di
validità concorrente, due misurazioni imperfette di un costrutto sottostante.
Un criterio non necessario riguarda un risultato futuro (validità predittiva) anche se spesso è
cosi. Si nota, come per molti criteri l'esito scolastico è una costruzione sociale, viene validato
nell'uso ufficiale che se ne fa e non si discute che misura esito scolastico...
4
2 punti, uno per la definizione , 1 per l'esempio. Altri esempi sono possibili.
Commento : alcuni studenti confondono validità di criterio con test criteriale (test per il quale
domande sono note) : 0 punti. Per studenti per i quali il criterio deve essere un risultato
disponibile nel futuro mezzo punto in meno (la situazione non è diversa di qualsiasi situazione
in cui si mettono in relazione due test, il tipo di validità rilevante è validità predittiva. Nota che
nell'esempio sopra , IQ come test e esito scolastico come criterio c'è anche un aspetto di validità
predittiva..) E' sempre possibile usare un test qualsiasi come un criterio (decisione nostra
teorica), ma spesso sarà problematico poiché di norma i costruttori di test non dicono che sia
'essenzialmente senza errori'. Altri esempi di criteri sono test neuro-fisiologici che. E' difficile
pensare di un test che consideriamo 'essenzialmente senza errori'. Caratteristiche fisse della
persona (sesso, età) non entrano in criteri (tranne in casi molti rari).
3.5 Dia una definizione di validità discriminante. Ne dia un esempio.
Si parla di validità discriminante quando un la misura di un costrutto che non dovrebbe essere
In relazione (correlato) con un altro costrutto, effettivamente dimostra una bassa correlazione
(assenza di relazione lineare) con la misura dell'altro costrutto.
Esempi sono facili, depressione non dovrebbe, secondo teorie esistenti, essere legato ad
intelligenza. Perciò test di IQ (Stanford Binet) e di depressione (Beck's depression index) non
dovrebbero mostrare correlazioni.
2 punti, una per la definizione, 1 per l'esempio. Si sottrae mezzo punto se i nomi dei test non
sono specifici.
Commento nel libro Pedrabisso da un esempio di una sua ricerca dove espressione di
emozione non dovrebbe essere correlato con percezione di emozione (altrui). Questo non è ovvio, e
il mezzo punto viene sottratto se non si dice che sia una ricerca di Pedrabisso etc. Per IQ ed tratti di
personalità non ci sono controlli sulla specificità di test (IQ : Stanford-Binet, WAIS, WISC etc ;
personalità big five, 16F, California personalità inventory etc. )
5