Capitolo 05

annuncio pubblicitario
QUINTA UNITA’
I punteggi zeta e la distribuzione normale
I punteggi ottenuti attraverso una misurazione risultano di difficile interpretazione se presi in
stessi. Affinché acquistino significato è necessario confrontarli con una distribuzione di
frequenza di punteggi nota oppure di un gruppo di controllo. In effetti, qualunque dato
acquista molto più significato se riferito ad un insieme di misure standard oppure desunte da
particolari gruppi di individui o di oggetti. Così, a esempio, se ottieni in una prova di esame
un punteggio di 62 non puoi sapere se si tratta di un punteggio buono o cattivo. Può essere
veramente cattivo se la maggioranza degli studenti ha preso 100. Ma potrebbe anche darsi
che il tuo punteggio è il migliore fra tutti. Solo una volta definita la distribuzione dei punteggi
del gruppo di riferimento, questo dato diventa per noi significativo. La tecnica statistica che
ci aiuta a dare senso ai vari punteggi è quella che li trasforma in punteggi z.
I punteggi zeta
Un punteggio z fa riferimento alla distanza positiva o negativa che un dato punteggio ha
rispetto alla media. Cosse la media della distribuzione è 50 e il tuo punteggio è 62, ciò
significa che esso si trova 12 punti sopra la media. Ma ciò non è sufficiente senza avere altri
elementi di riferimento Questa distanza è notevole, tenendo conto dei punteggi presi dagli
altri, oppure è poco significativa? Per interpretare un punteggio è necessario collocarlo in una
data posizione, cioè assegnargli un posto preciso rispetto agli altri punteggi. Per fare questo in
maniera precisa una strada abbastanza agevole consiste: a) nel considerare la distanza tra il
vostro punteggio e la media; dividere tale distanza per la deviazione standard. In altre parole
si tratta di misurare la distanza tra il punteggio 62 quello della media 50 usando come unità di
misura la deviazione standard s.
Un punteggio di 20 in una distribuzione con una media di 23 può essere indicato come -3.
Possiamo anche esprimere questo valore in termini di scarti quadratici medi (o deviazione
standard), presi come unità di misura. Così, se lo scarto quadratico medio è 1,5, a un
punteggio pari a 20 può essere assegnato il valore -3 : 1,5 = -2, che significa 2 scostamenti
quadratici medi al di sotto della media.
Questa procedura, cioè la divisione dello scarto dalla media per la deviazione standard o
scarto quadratico medio è denominata trasformazione del punteggio in punteggio
standardizzato, o punteggio zeta, z.
In qualche testo di statistica viene utilizzato il simbolo x per rappresentare lo scarto (X — X),
possiamo anche scrivere:
z = x/s.
50
Ogni punteggio nella distribuzione può essere così trasformato in un punteggio z, che
rappresenta pertanto lo scarto di un punteggio specifico dalla media aritmetica, espresso in
termini di scarto quadratico medio o deviazione standard.
Nel nostro caso il punteggio era 62, la media 50, di conseguenza la distanza del punteggio
dalla media era 12. Se la deviazione standard è 6 si ottiene
Quindi il punteggio 62 viene trasformato in un punteggio z = 2, il che significa che esso è di 2
deviazioni standard superiore alla media. Se, invece, il punteggio fosse stato di 48, esso
sarebbe risultato uguale a -2, cioè inferiore alla media di due deviazioni standard.
Per comprendere meglio il significato della trasformazione z, richiamiamo alcune delle sue
principali proprietà. Tutte queste proprietà sono facilmente dimostrabili.
1. La somma dei punteggi z è zero:
Σ z = 0.
2.
La media dei punteggi z è zero:
3. La somma dei quadrati dei punteggi z è N.
4. Lo scarto quadratico medio e la varianza dei punteggi z è 1. Cioè
Fig. 5.-1 Una possibile distribuzione di punteggi con media uguale a 50 è deviazione standard 6.
51
Vedremo meglio tra poco l'importanza della trasformazione in punteggi z. Mediante la
trasformazione z otteniamo una distribuzione che conserva i suoi caratteri fondamentali, ma
che può essere facilmente confrontata con altre distribuzioni trasformate nella stessa maniera.
I punteggi z, a differenza dei valori originali, permettono di confrontare la posizione di un
qualunque soggetto nella distribuzione di un carattere con la posizione dello stesso soggetto
nella distribuzione di un altro carattere.
E’ bene ricordare ancora che l’uso dei simboli in statistica distingue tra il caso in cui si tratti
di una popolazione e il caso in cui si prenda in considerazione un suo campione. Nel primo
caso si usano le lettere greche per indicare la media, µ, e per indicare lo scarto quadratico
medio, σ. Nel secondo caso si usano le lettere latine. Quindi, se invece che di un campione
noi utilizziamo dati provenienti da una popolazione utilizzeremo una formula del tutto simile,
solo che alla media del campione X sostituiremo la media della popolazione µ e al posto della
deviazione standard del campione s, utilizzeremo la deviazione standard σ della popolazione
campione
Per comprendere meglio queste due proprietà fondamentali della trasformazione z dobbiamo
approfondire il concetto di distribuzione normale standardizzata.
La distribuzione normale standardizzata
Nelle scienze è importante individuare un modello di riferimento che consenta un più agevole
studio dei problemi posti da un insieme di fenomeni. Spesso si tratta di un modello ideale.
Nella meccanica esiste, a esempio, una macchina ideale. Qualcosa di simile esiste
nell’informatica con il modello di elaboratore di Turing. Nel caso della statistica si ha una
distribuzione ideale a cui fare riferimento sistematicamente: è la cosiddetta distribuzione
normale. Essa è stata individuata la prima volta nel 1733 da A. de Moivre, nato in Francia nel
1667 e vissuto e morto in Inghilterra nel 1754. K.F.Gauss (tedesco, 1777-1855) la ha ripresa
nella sua teoria degli errori. Per questo spesso tale distribuzione è detta distribuzione o curva
di Gauss o curva gaussiana. Si tratta di una funzione matematica che si può esprimere
mediante una formula precisa, abbastanza complessa. Eccola, come informazione.
Dove: f(X) è la frequenza relativa di un particolare punteggio; e è una costante dal valore di
circa 2,7183, π è una costante dal valore di circa 3, 1416; X è il punteggio osservato; µ è la
media della popolazione; σ2 è la varianza della popolazione. Nel caso in cui la media dei
punteggi osservati è 50 e la varianza è 36 la curva normale o gaussiana assume la forma
seguente.
52
Il grafico di questa funzione è una curva che ha la forma di una campana. Per questo è anche
chiamata curva a campana. Dal momento che nella funzione sono presenti due parametri (la
media e la varianza), si tratta di una famiglia di curve a campana, che rappresentano le
relative distribuzioni normali. Nel caso in cui si trasformano i punteggi osservati in punteggi
z si ottiene una particolare curva che ha media uguale a 0 (µ = 0) e la varianza uguale a 1 (σ2
= 1) ed è chiamata distribuzione normale standardizzata.
La distribuzione normale standardizzata è caratterizzata dal fatto di avere media aritmetica
pari a zero e scarto quadratico medio pari ed uno cioè µ = 0 e σ = 1. Inoltre, l'area totale
sotto la curva è pari ed 1,00. Esiste una percentuale fissa di casi che cadono tra due ascisse
sotto la curva. Quindi, prendendo pochi punti di riferimento sulla curva normale è possibile
affermare quanto segue:
1. Tra la media e uno scarto quadratico medio, cioè µ + σ, cade il 34,13% di tutti i casi, sia
che lo si consideri il punto corrispondente allo scarto quadratico medio al di sopra della
media, che al di sotto, cioè µ ± σ. Detto in altri termini, si può scrivere che il 34,13%
dell’area totale sotto la curva si trova tra la media e 1 scarto quadratico medio al di sopra
della medie stesse, mentre il 34, 13% dell’area totale cade tra la media e -1 scarto
quadratico medio.
2. Tra la media e 2 scarti quadratici medi cade i1 47,72% del casi. Essendo la curva normale
una curva simmetrica, come nel caso precedente, 47,72% di tutti i casi cade tra la media e
-2 scarti quadratici medi.
3. Infine tra la media e 3 scarti quadratici medi al di sopra della stessa si trova il 49,87% di
tutti i casi. Analogamente il 49,87% di tutti i casi cade tra la media e -3 scarti quadratici
medi. Così, per riassumere, il 99, 74% di tutti i casi cade in un intervallo dl ampiezza ±3
σ , cioè ±3 scarti quadratici medi. Queste percentuali si possono desumere graficamente
dalla figura seguente.
4. Il punto della curva normale che ha ascissa di valore -σ è un punto di flesso e in quel
punto la curva normale da concava diventa convessa; il punto della curva normale che ha
ascissa di valore +σ è anch’esso un punto di flesso e in quel punto la curva normale da
convessa diventa concava.
Fig. 5.2 - Relazioni tra la distanza dalla µ in σ e densità di probabilità sottesa dalla curva (area sotto
la curva compresa tra –σ e +σ, tra -2σ e +2σ, tra -3σ e +3σ.
53
Le caratteristiche fondamentali della curva che rappresenta la distribuzione z possono essere
così riassunte.
1) Se consideriamo due punteggi z l’area che sta sotto la porzione di curva normale
determinata da questi due punteggio è facilmente calcolabile ed è proporzionale alla
percentuale di punteggi che è compresa tra di essi. Così se consideriamo il punteggio medio
(z = 0) e il punteggio z = 1. La lo spazio che sta sotto la porzione di curva individuata da
questi due punteggi è proporzionale al 34,13% di tutti i punteggi.
2) La forma della curva normale è a campana; essa e poi simmetrica e quindi il valore di
simmetria (skew) s3 = 0; inoltre essa è mesocurtica e la sua curtosi è s4 = 3.
3) Trasformando i punteggi di una variabile in punteggi z, in pratica ci troviamo ed avere dei
nuovi punteggi espressi in termini di una comune unità di misura. Per ogni valore della
variabile X esiste sulla curva normale un corrispondente valore z tale che l’area al di là del
valore z sulla curva normale è uguale all’area che si trova al di là del punteggio X nella
distribuzione originale. Così se abbiamo una popolazione in cui µ = 30 e σ = 10, lo z
corrispondente alla media µ sarà ovviamente uguale a zero e lo z corrispondente a 1 scarto
quadratico medio sarà pari a 1 o a -1 a seconda che il corrispondente valore X si trovi al di
sopra od al di sotto della media aritmetica.
4) Possiamo dunque calcolare la percentuale di punteggi che sta al di sopra o al di sotto di un
determinato punteggio trasformando questi in punteggi z. Dal momento che esiste un
proporzione precisa tra area sotto la porzione di curva normale considerata e percentuale di
punteggi corrispondenti , possiamo risalire da queste ultime percentuali e quelle originali.
5) Esistono tabelle mediante le quali è possibile determinare la percentuale di area che cade
tra due punti qualsiasi di una distribuzione. Ciò si può fare semplicemente leggendo i valori
tabulati delle aree sotto la curva normale.
Confronto tra i punteggi di test diversi
Come accennato, la trasformazione dei punteggi di test differenti in punteggi z consente di
confrontare tra di loro i risultati di test differenti. In generale due test si presentano spesso
differentemente sia per la loro struttura (numero di questioni, punteggi assegnati, ecc.), sia
perché applicati a popolazioni assai diverse tra loro. Consideriamo come esempio
l’applicazione di tre test: un test di matematica, un test verbale, un test di logica. Per poter
confrontare i risultati ottenuti nei tre test occorre avere a disposizione uno strumento comune
di confronto: si tratta proprio della distribuzione z. Trasformando tutti i punteggi originali in
punteggi z si ottengono punteggi confrontabili facilmente tra loro come dimostra la figura
5.3.
54
Fig. 5.3 - Illustrazione di come i punteggi z permettono di confrontare tra di loro test che
presentano differenti medie e differenti deviazioni standard.
Area sotto la curva normale e stima dei punteggi
La Figura 5.1 indica la percentuale di area sotto la curva normale individuata da alcuni
punteggi z, in particolare +1, -1, +2, -2, +3, -3. Questi punteggi individuano a partire da 0
alcune porzioni di area comprese sotto la curva normale espresse in termini percentuali.
L’intera area compresa sotto la curva vale 1, in percentuale 100%; tra 0 e +1 è compreso il
34,13% dell’area totale (o 0,3413); tra +1 e +2 è compreso il 13,59% (o 0,1359) dell’area
totale; tra +2 e +3 è compreso il 2,15% (o 0,0215) dell’area totale. Lo stesso vale
simmetricamente per i punteggi -1, -2, -3.
La cosa più interessante è data dal fatto che è possibile calcolare per ogni punteggio la
percentuale di area sotto la curva normale da questi individuata per mezzo dell’utilizzazione
di una apposita tabella e dell’suo di un apposito programma informatico. In queste dispense si
tratta della Tabella A inclusa nell’Appendice e intitolata “Frazioni di area sotto la curva
normale”. In essa a ogni valore del punteggio z (nella prima colonna, colonna A), corrisponde
un valore espresso mediante un numero decimale che indica la porzione di area sotto la curva
normale compreso tra la media e quel punteggio (nella seconda colonna, colonna B) e la
porzione di area sotto la curva che sta oltre la curva normale, sempre espressa mediante un
numero decimale (terza colonna, colonna C).
Primo esempio. In un distribuzione normale di punteggi ottenuti da una popolazione in un
test di intelligenza la media è uguale a 100, µ = 100, e lo scarto quadratico medio è 16, σ =
16. Se un soggetto A ha ottenuto il punteggio di 125 e un secondo soggetto B ha ottenuto 93,
qual è la loro posizione percentile? In casi come questo, occorre ricorrere alla tabella A(o a
dati memorizzati in un programma informatico) che riporta il corrispettivo di un punteggio z.
I grafici evidenziano la situazione nel caso del soggetto A e del soggetto B:
55
a)
b)
Fig. 5.4 - Aree sotto la curva normale per i punteggi 125 e 93.
Nel caso del soggetto A (Fig.5.4 a), il suo punteggio z può essere ottenuto mediante l’uso
della formula precedente: (125 – 100) : 16 = 1,56. Nella tabella A già citata si trova che il
46,06 % dell’area totale cade tra la media e 1,56 volte lo scarto quadratico medio. In questo
caso al disopra della media, che si riferisce al 50% dell’area. In totale si ha che la posizione
percentile di A è (50 + 46,06) = 96,06.
Analogo procedimento si segue nel caso del soggetto B (Fig.5.4 b); z = (93 – 100) : 16 =
- 0,44. Al punteggio z = - 0,44 corrisponde nella tabella citata la percentuale del 33%. La
posizione percentile di conseguenza è 33.
Secondo esempio. Nella stessa situazione precedente, qual è la percentuale di casi che cadono
tra i punteggi 88 e 120? Osservando la figura seguente si comprende che occorre sommare la
percentuale di area a sinistra della media e quella alla sua destra individuate dai rispettivi
punti z. Questi sono: - 0,75 e 1,25. Le corrispondenti percentuali di area sotto la curva sono
39,44% e 27,34%. Complessivamente si ha che il 66,78 % (39,44 + 27,34) dei casi cade tra i
punteggi 88 e 120.
Fig.5.5 - Area sotto la curva normale per i punteggi tra 88 e 120.
Un esempio particolare. Consideriamo due batterie di cannoni: batteria A e batteria B. Un
punteggio 0 indica che il colpo è andato al bersaglio; un punteggio positivo che il colpo è
andato oltre il bersaglio; uno negativo che è andato prima. Ecco i risultati ottenuti.
56
Tab.5.1 - Punteggi ipotetici per le batterie A e B. La loro media è la stessa, ma la dispersione è
diversa.
Le due batterie hanno quindi la stessa prestazione media, ma differente dispersione e
differente scarto quadratico medio. La batteria B è stata di conseguenza più precisa della
batteria A. L’errore della batteria A è più ampio di quello della batteria B.
I punteggi T
Molti testi psicologici e sociologici vengono costruiti nella prospettiva di ottenere una
distribuzione rappresentata approssimativamente da quella normale standardizzata dei
punteggi. Poiché non è molto conveniente, e addirittura può essere fuorviante in alcuni casi,
avere a che fare con distribuzioni contenenti parecchi valori negativi, si usa trasformare i
punteggi z in punteggi T mediante la semplice equazione:
T = 100+ 10 z
57
Questa trasformazione fornisce una media pari a 50 ed uno scarto quadratico medio pari a 10,
cosicché vengono eliminati tutti i valori negativi. Va anche ricordato che spesso i ricercatori
arrotondano le cifre decimali all’intero più vicino in modo da eliminare i decimali stessi.
I punteggi T possono essere facilmente ritrasformati in punteggi z semplicemente mediante
l’equazione inversa della precedente, valida nel caso di distribuzioni normali.
Sintesi
In questa unità abbiamo mostrato l’importanza dello scarto quadratico medio per il confronto
della variabilità dei punteggi in differenti distribuzioni di frequenza di una stessa variabile,
nonché l’interpretazione di un punteggio nell’ambito di una data distribuzione ed il confronto
di più punteggi relativi a più variabili. Abbiamo anche mostrato come trasformare i dati
originali in dati standardizzati (trasformazione z) nel caso di curve. normali standardizzate ed
infine le varie caratteristiche della curva normale standardizzata. Alcuni problemi risolti
hanno mostrato possibili applicazioni della trasformazione in punteggi z di dati provenienti da
distribuzioni normali. Infine abbiamo analizzato lo scarto quadratico medio in termini di
stima dell’errore o di stima della precisione. Abbiamo mostrato l’uso delle trasformazioni T
come strumento conveniente per l’eliminazione di valori negativi, che risultano dalla
trasformazione z.
Termini da ricordare
Distribuzione normale standardizzata - Distribuzione di frequenza con media 0, varianza e
scarto quadratico medio uguali a 1 e area totale sotto la curva uguale a 1.
Punteggio standardizzato z - Punteggio che rappresenta il rapporto tra scarto del punteggio
iniziale dalla media e scarto quadratico medio e che viene assunto come nuova unità di
misura.
Trasformazione T - Trasformazione della distribuzione di frequenza analoga a quella z, ma
con valori che sono stati resi tutti positivi.
Area sotto la curva normale individuata dai punteggi z –Porzione di area sotto la curva
normale compresa tra la media e un determinato punteggio z. Può essere espressa in termini
percentuali o mediante numeri decimali.
58
Esercizi
1. Trova il valore dei punteggi z o punteggi standardizzati per i seguenti punteggi grezzi,
sapendo che la media della popolazione è 5,5 e la deviazione standard 1.
5, 3, 6, 7, 6, 6, 5, ,5 ,6, 8, 7, 5, 5
2. In una classe i voti di matematica sono due: orale e scritto. I voti sono espressi in decimi.
La media della classe in matematica orale è 6, mentre la deviazione standard è 2; la media
della classe in matematica scritta è 5,5, mentre la deviazione standard è 3. Paolo ha ricevuto 7
nello scritto di matematica e 8 nell’orale. In quale delle due prove è riuscito meglio rispetto
all’andamento della classe?
3. Calcola la media, il campo di variazione, la varianza e la deviazione standard dei seguenti
punteggi e relative frequenze:
X
1
2
3
4
5
6
7
8
9
f
1
1
2
2
4
0
3
1
1
4. Qual è la porzione di area sotto la curva normale (in %) che corrisponde a:
a) µ
………………………….……..
b) µ + σ
………………………….…..….
c) µ + 2 σ
……………………….….….….
d) µ + 3 σ
……………………….….….….
e) µ – σ
…………………….……….…...
f) µ - 2 σ
……………………………….…
g) µ - 3 σ
……………………………….…
59
Scarica