QUINTA UNITA’ I punteggi zeta e la distribuzione normale I punteggi ottenuti attraverso una misurazione risultano di difficile interpretazione se presi in stessi. Affinché acquistino significato è necessario confrontarli con una distribuzione di frequenza di punteggi nota oppure di un gruppo di controllo. In effetti, qualunque dato acquista molto più significato se riferito ad un insieme di misure standard oppure desunte da particolari gruppi di individui o di oggetti. Così, a esempio, se ottieni in una prova di esame un punteggio di 62 non puoi sapere se si tratta di un punteggio buono o cattivo. Può essere veramente cattivo se la maggioranza degli studenti ha preso 100. Ma potrebbe anche darsi che il tuo punteggio è il migliore fra tutti. Solo una volta definita la distribuzione dei punteggi del gruppo di riferimento, questo dato diventa per noi significativo. La tecnica statistica che ci aiuta a dare senso ai vari punteggi è quella che li trasforma in punteggi z. I punteggi zeta Un punteggio z fa riferimento alla distanza positiva o negativa che un dato punteggio ha rispetto alla media. Cosse la media della distribuzione è 50 e il tuo punteggio è 62, ciò significa che esso si trova 12 punti sopra la media. Ma ciò non è sufficiente senza avere altri elementi di riferimento Questa distanza è notevole, tenendo conto dei punteggi presi dagli altri, oppure è poco significativa? Per interpretare un punteggio è necessario collocarlo in una data posizione, cioè assegnargli un posto preciso rispetto agli altri punteggi. Per fare questo in maniera precisa una strada abbastanza agevole consiste: a) nel considerare la distanza tra il vostro punteggio e la media; dividere tale distanza per la deviazione standard. In altre parole si tratta di misurare la distanza tra il punteggio 62 quello della media 50 usando come unità di misura la deviazione standard s. Un punteggio di 20 in una distribuzione con una media di 23 può essere indicato come -3. Possiamo anche esprimere questo valore in termini di scarti quadratici medi (o deviazione standard), presi come unità di misura. Così, se lo scarto quadratico medio è 1,5, a un punteggio pari a 20 può essere assegnato il valore -3 : 1,5 = -2, che significa 2 scostamenti quadratici medi al di sotto della media. Questa procedura, cioè la divisione dello scarto dalla media per la deviazione standard o scarto quadratico medio è denominata trasformazione del punteggio in punteggio standardizzato, o punteggio zeta, z. In qualche testo di statistica viene utilizzato il simbolo x per rappresentare lo scarto (X — X), possiamo anche scrivere: z = x/s. 50 Ogni punteggio nella distribuzione può essere così trasformato in un punteggio z, che rappresenta pertanto lo scarto di un punteggio specifico dalla media aritmetica, espresso in termini di scarto quadratico medio o deviazione standard. Nel nostro caso il punteggio era 62, la media 50, di conseguenza la distanza del punteggio dalla media era 12. Se la deviazione standard è 6 si ottiene Quindi il punteggio 62 viene trasformato in un punteggio z = 2, il che significa che esso è di 2 deviazioni standard superiore alla media. Se, invece, il punteggio fosse stato di 48, esso sarebbe risultato uguale a -2, cioè inferiore alla media di due deviazioni standard. Per comprendere meglio il significato della trasformazione z, richiamiamo alcune delle sue principali proprietà. Tutte queste proprietà sono facilmente dimostrabili. 1. La somma dei punteggi z è zero: Σ z = 0. 2. La media dei punteggi z è zero: 3. La somma dei quadrati dei punteggi z è N. 4. Lo scarto quadratico medio e la varianza dei punteggi z è 1. Cioè Fig. 5.-1 Una possibile distribuzione di punteggi con media uguale a 50 è deviazione standard 6. 51 Vedremo meglio tra poco l'importanza della trasformazione in punteggi z. Mediante la trasformazione z otteniamo una distribuzione che conserva i suoi caratteri fondamentali, ma che può essere facilmente confrontata con altre distribuzioni trasformate nella stessa maniera. I punteggi z, a differenza dei valori originali, permettono di confrontare la posizione di un qualunque soggetto nella distribuzione di un carattere con la posizione dello stesso soggetto nella distribuzione di un altro carattere. E’ bene ricordare ancora che l’uso dei simboli in statistica distingue tra il caso in cui si tratti di una popolazione e il caso in cui si prenda in considerazione un suo campione. Nel primo caso si usano le lettere greche per indicare la media, µ, e per indicare lo scarto quadratico medio, σ. Nel secondo caso si usano le lettere latine. Quindi, se invece che di un campione noi utilizziamo dati provenienti da una popolazione utilizzeremo una formula del tutto simile, solo che alla media del campione X sostituiremo la media della popolazione µ e al posto della deviazione standard del campione s, utilizzeremo la deviazione standard σ della popolazione campione Per comprendere meglio queste due proprietà fondamentali della trasformazione z dobbiamo approfondire il concetto di distribuzione normale standardizzata. La distribuzione normale standardizzata Nelle scienze è importante individuare un modello di riferimento che consenta un più agevole studio dei problemi posti da un insieme di fenomeni. Spesso si tratta di un modello ideale. Nella meccanica esiste, a esempio, una macchina ideale. Qualcosa di simile esiste nell’informatica con il modello di elaboratore di Turing. Nel caso della statistica si ha una distribuzione ideale a cui fare riferimento sistematicamente: è la cosiddetta distribuzione normale. Essa è stata individuata la prima volta nel 1733 da A. de Moivre, nato in Francia nel 1667 e vissuto e morto in Inghilterra nel 1754. K.F.Gauss (tedesco, 1777-1855) la ha ripresa nella sua teoria degli errori. Per questo spesso tale distribuzione è detta distribuzione o curva di Gauss o curva gaussiana. Si tratta di una funzione matematica che si può esprimere mediante una formula precisa, abbastanza complessa. Eccola, come informazione. Dove: f(X) è la frequenza relativa di un particolare punteggio; e è una costante dal valore di circa 2,7183, π è una costante dal valore di circa 3, 1416; X è il punteggio osservato; µ è la media della popolazione; σ2 è la varianza della popolazione. Nel caso in cui la media dei punteggi osservati è 50 e la varianza è 36 la curva normale o gaussiana assume la forma seguente. 52 Il grafico di questa funzione è una curva che ha la forma di una campana. Per questo è anche chiamata curva a campana. Dal momento che nella funzione sono presenti due parametri (la media e la varianza), si tratta di una famiglia di curve a campana, che rappresentano le relative distribuzioni normali. Nel caso in cui si trasformano i punteggi osservati in punteggi z si ottiene una particolare curva che ha media uguale a 0 (µ = 0) e la varianza uguale a 1 (σ2 = 1) ed è chiamata distribuzione normale standardizzata. La distribuzione normale standardizzata è caratterizzata dal fatto di avere media aritmetica pari a zero e scarto quadratico medio pari ed uno cioè µ = 0 e σ = 1. Inoltre, l'area totale sotto la curva è pari ed 1,00. Esiste una percentuale fissa di casi che cadono tra due ascisse sotto la curva. Quindi, prendendo pochi punti di riferimento sulla curva normale è possibile affermare quanto segue: 1. Tra la media e uno scarto quadratico medio, cioè µ + σ, cade il 34,13% di tutti i casi, sia che lo si consideri il punto corrispondente allo scarto quadratico medio al di sopra della media, che al di sotto, cioè µ ± σ. Detto in altri termini, si può scrivere che il 34,13% dell’area totale sotto la curva si trova tra la media e 1 scarto quadratico medio al di sopra della medie stesse, mentre il 34, 13% dell’area totale cade tra la media e -1 scarto quadratico medio. 2. Tra la media e 2 scarti quadratici medi cade i1 47,72% del casi. Essendo la curva normale una curva simmetrica, come nel caso precedente, 47,72% di tutti i casi cade tra la media e -2 scarti quadratici medi. 3. Infine tra la media e 3 scarti quadratici medi al di sopra della stessa si trova il 49,87% di tutti i casi. Analogamente il 49,87% di tutti i casi cade tra la media e -3 scarti quadratici medi. Così, per riassumere, il 99, 74% di tutti i casi cade in un intervallo dl ampiezza ±3 σ , cioè ±3 scarti quadratici medi. Queste percentuali si possono desumere graficamente dalla figura seguente. 4. Il punto della curva normale che ha ascissa di valore -σ è un punto di flesso e in quel punto la curva normale da concava diventa convessa; il punto della curva normale che ha ascissa di valore +σ è anch’esso un punto di flesso e in quel punto la curva normale da convessa diventa concava. Fig. 5.2 - Relazioni tra la distanza dalla µ in σ e densità di probabilità sottesa dalla curva (area sotto la curva compresa tra –σ e +σ, tra -2σ e +2σ, tra -3σ e +3σ. 53 Le caratteristiche fondamentali della curva che rappresenta la distribuzione z possono essere così riassunte. 1) Se consideriamo due punteggi z l’area che sta sotto la porzione di curva normale determinata da questi due punteggio è facilmente calcolabile ed è proporzionale alla percentuale di punteggi che è compresa tra di essi. Così se consideriamo il punteggio medio (z = 0) e il punteggio z = 1. La lo spazio che sta sotto la porzione di curva individuata da questi due punteggi è proporzionale al 34,13% di tutti i punteggi. 2) La forma della curva normale è a campana; essa e poi simmetrica e quindi il valore di simmetria (skew) s3 = 0; inoltre essa è mesocurtica e la sua curtosi è s4 = 3. 3) Trasformando i punteggi di una variabile in punteggi z, in pratica ci troviamo ed avere dei nuovi punteggi espressi in termini di una comune unità di misura. Per ogni valore della variabile X esiste sulla curva normale un corrispondente valore z tale che l’area al di là del valore z sulla curva normale è uguale all’area che si trova al di là del punteggio X nella distribuzione originale. Così se abbiamo una popolazione in cui µ = 30 e σ = 10, lo z corrispondente alla media µ sarà ovviamente uguale a zero e lo z corrispondente a 1 scarto quadratico medio sarà pari a 1 o a -1 a seconda che il corrispondente valore X si trovi al di sopra od al di sotto della media aritmetica. 4) Possiamo dunque calcolare la percentuale di punteggi che sta al di sopra o al di sotto di un determinato punteggio trasformando questi in punteggi z. Dal momento che esiste un proporzione precisa tra area sotto la porzione di curva normale considerata e percentuale di punteggi corrispondenti , possiamo risalire da queste ultime percentuali e quelle originali. 5) Esistono tabelle mediante le quali è possibile determinare la percentuale di area che cade tra due punti qualsiasi di una distribuzione. Ciò si può fare semplicemente leggendo i valori tabulati delle aree sotto la curva normale. Confronto tra i punteggi di test diversi Come accennato, la trasformazione dei punteggi di test differenti in punteggi z consente di confrontare tra di loro i risultati di test differenti. In generale due test si presentano spesso differentemente sia per la loro struttura (numero di questioni, punteggi assegnati, ecc.), sia perché applicati a popolazioni assai diverse tra loro. Consideriamo come esempio l’applicazione di tre test: un test di matematica, un test verbale, un test di logica. Per poter confrontare i risultati ottenuti nei tre test occorre avere a disposizione uno strumento comune di confronto: si tratta proprio della distribuzione z. Trasformando tutti i punteggi originali in punteggi z si ottengono punteggi confrontabili facilmente tra loro come dimostra la figura 5.3. 54 Fig. 5.3 - Illustrazione di come i punteggi z permettono di confrontare tra di loro test che presentano differenti medie e differenti deviazioni standard. Area sotto la curva normale e stima dei punteggi La Figura 5.1 indica la percentuale di area sotto la curva normale individuata da alcuni punteggi z, in particolare +1, -1, +2, -2, +3, -3. Questi punteggi individuano a partire da 0 alcune porzioni di area comprese sotto la curva normale espresse in termini percentuali. L’intera area compresa sotto la curva vale 1, in percentuale 100%; tra 0 e +1 è compreso il 34,13% dell’area totale (o 0,3413); tra +1 e +2 è compreso il 13,59% (o 0,1359) dell’area totale; tra +2 e +3 è compreso il 2,15% (o 0,0215) dell’area totale. Lo stesso vale simmetricamente per i punteggi -1, -2, -3. La cosa più interessante è data dal fatto che è possibile calcolare per ogni punteggio la percentuale di area sotto la curva normale da questi individuata per mezzo dell’utilizzazione di una apposita tabella e dell’suo di un apposito programma informatico. In queste dispense si tratta della Tabella A inclusa nell’Appendice e intitolata “Frazioni di area sotto la curva normale”. In essa a ogni valore del punteggio z (nella prima colonna, colonna A), corrisponde un valore espresso mediante un numero decimale che indica la porzione di area sotto la curva normale compreso tra la media e quel punteggio (nella seconda colonna, colonna B) e la porzione di area sotto la curva che sta oltre la curva normale, sempre espressa mediante un numero decimale (terza colonna, colonna C). Primo esempio. In un distribuzione normale di punteggi ottenuti da una popolazione in un test di intelligenza la media è uguale a 100, µ = 100, e lo scarto quadratico medio è 16, σ = 16. Se un soggetto A ha ottenuto il punteggio di 125 e un secondo soggetto B ha ottenuto 93, qual è la loro posizione percentile? In casi come questo, occorre ricorrere alla tabella A(o a dati memorizzati in un programma informatico) che riporta il corrispettivo di un punteggio z. I grafici evidenziano la situazione nel caso del soggetto A e del soggetto B: 55 a) b) Fig. 5.4 - Aree sotto la curva normale per i punteggi 125 e 93. Nel caso del soggetto A (Fig.5.4 a), il suo punteggio z può essere ottenuto mediante l’uso della formula precedente: (125 – 100) : 16 = 1,56. Nella tabella A già citata si trova che il 46,06 % dell’area totale cade tra la media e 1,56 volte lo scarto quadratico medio. In questo caso al disopra della media, che si riferisce al 50% dell’area. In totale si ha che la posizione percentile di A è (50 + 46,06) = 96,06. Analogo procedimento si segue nel caso del soggetto B (Fig.5.4 b); z = (93 – 100) : 16 = - 0,44. Al punteggio z = - 0,44 corrisponde nella tabella citata la percentuale del 33%. La posizione percentile di conseguenza è 33. Secondo esempio. Nella stessa situazione precedente, qual è la percentuale di casi che cadono tra i punteggi 88 e 120? Osservando la figura seguente si comprende che occorre sommare la percentuale di area a sinistra della media e quella alla sua destra individuate dai rispettivi punti z. Questi sono: - 0,75 e 1,25. Le corrispondenti percentuali di area sotto la curva sono 39,44% e 27,34%. Complessivamente si ha che il 66,78 % (39,44 + 27,34) dei casi cade tra i punteggi 88 e 120. Fig.5.5 - Area sotto la curva normale per i punteggi tra 88 e 120. Un esempio particolare. Consideriamo due batterie di cannoni: batteria A e batteria B. Un punteggio 0 indica che il colpo è andato al bersaglio; un punteggio positivo che il colpo è andato oltre il bersaglio; uno negativo che è andato prima. Ecco i risultati ottenuti. 56 Tab.5.1 - Punteggi ipotetici per le batterie A e B. La loro media è la stessa, ma la dispersione è diversa. Le due batterie hanno quindi la stessa prestazione media, ma differente dispersione e differente scarto quadratico medio. La batteria B è stata di conseguenza più precisa della batteria A. L’errore della batteria A è più ampio di quello della batteria B. I punteggi T Molti testi psicologici e sociologici vengono costruiti nella prospettiva di ottenere una distribuzione rappresentata approssimativamente da quella normale standardizzata dei punteggi. Poiché non è molto conveniente, e addirittura può essere fuorviante in alcuni casi, avere a che fare con distribuzioni contenenti parecchi valori negativi, si usa trasformare i punteggi z in punteggi T mediante la semplice equazione: T = 100+ 10 z 57 Questa trasformazione fornisce una media pari a 50 ed uno scarto quadratico medio pari a 10, cosicché vengono eliminati tutti i valori negativi. Va anche ricordato che spesso i ricercatori arrotondano le cifre decimali all’intero più vicino in modo da eliminare i decimali stessi. I punteggi T possono essere facilmente ritrasformati in punteggi z semplicemente mediante l’equazione inversa della precedente, valida nel caso di distribuzioni normali. Sintesi In questa unità abbiamo mostrato l’importanza dello scarto quadratico medio per il confronto della variabilità dei punteggi in differenti distribuzioni di frequenza di una stessa variabile, nonché l’interpretazione di un punteggio nell’ambito di una data distribuzione ed il confronto di più punteggi relativi a più variabili. Abbiamo anche mostrato come trasformare i dati originali in dati standardizzati (trasformazione z) nel caso di curve. normali standardizzate ed infine le varie caratteristiche della curva normale standardizzata. Alcuni problemi risolti hanno mostrato possibili applicazioni della trasformazione in punteggi z di dati provenienti da distribuzioni normali. Infine abbiamo analizzato lo scarto quadratico medio in termini di stima dell’errore o di stima della precisione. Abbiamo mostrato l’uso delle trasformazioni T come strumento conveniente per l’eliminazione di valori negativi, che risultano dalla trasformazione z. Termini da ricordare Distribuzione normale standardizzata - Distribuzione di frequenza con media 0, varianza e scarto quadratico medio uguali a 1 e area totale sotto la curva uguale a 1. Punteggio standardizzato z - Punteggio che rappresenta il rapporto tra scarto del punteggio iniziale dalla media e scarto quadratico medio e che viene assunto come nuova unità di misura. Trasformazione T - Trasformazione della distribuzione di frequenza analoga a quella z, ma con valori che sono stati resi tutti positivi. Area sotto la curva normale individuata dai punteggi z –Porzione di area sotto la curva normale compresa tra la media e un determinato punteggio z. Può essere espressa in termini percentuali o mediante numeri decimali. 58 Esercizi 1. Trova il valore dei punteggi z o punteggi standardizzati per i seguenti punteggi grezzi, sapendo che la media della popolazione è 5,5 e la deviazione standard 1. 5, 3, 6, 7, 6, 6, 5, ,5 ,6, 8, 7, 5, 5 2. In una classe i voti di matematica sono due: orale e scritto. I voti sono espressi in decimi. La media della classe in matematica orale è 6, mentre la deviazione standard è 2; la media della classe in matematica scritta è 5,5, mentre la deviazione standard è 3. Paolo ha ricevuto 7 nello scritto di matematica e 8 nell’orale. In quale delle due prove è riuscito meglio rispetto all’andamento della classe? 3. Calcola la media, il campo di variazione, la varianza e la deviazione standard dei seguenti punteggi e relative frequenze: X 1 2 3 4 5 6 7 8 9 f 1 1 2 2 4 0 3 1 1 4. Qual è la porzione di area sotto la curva normale (in %) che corrisponde a: a) µ ………………………….…….. b) µ + σ ………………………….…..…. c) µ + 2 σ ……………………….….….…. d) µ + 3 σ ……………………….….….…. e) µ – σ …………………….……….…... f) µ - 2 σ ……………………………….… g) µ - 3 σ ……………………………….… 59