Facoltà di Psicologia Università di Padova Anno Accademico 2010-­‐2011 Corso di Psicometria - Modulo B Dott. Marco Vicentini [email protected] Rev. 03/05/2011 ¡ Distribuzioni di v.c. § La distribuzione normale § La distribuzione t di Student ¡ Verifica di ipotesi sulle medie § Un campione e la popolazione ▪ Varianza nella popolazione nota / ignota § Due campioni indipendenti ▪ Varianza nella popolazione nota / ignota ▪ Varianze omogenee / non omogenee § Due campioni non indipendenti 2 3 ¡ A tutte le variabili casuali, discrete e continue, è associata una distribuzione che permette di calcolare le probabilità degli eventi possibili. ¡ Nel caso continuo, si tratta di una funzione che soddisfa le due condizioni: f (x ) ≥ 0 +∞ ∫ f (x )dx = 1 −∞ 4 ¡ Si tratta della più importante distribuzione di variabili continue, in quanto: 1. si può assumere come comportamento di molti fenomeni casuali, tra cui gli errori accidentali; 2. è la forma limite di molte altre distribuzioni di probabilità; 3. trasformando opportunamente delle v.c. non normali, si possono ottenere nuove variabili distribuite normalmente; 4. sotto determinate condizioni, delle somme di v.c. possono essere approssimate da una distribuzione normale (teorema del limite centrale). 5 ¡ ¡ Una v.c. con media µ e varianza σ2 (parametri della distribuzione) ha una distribuzione normale se la sua densità è data da 2 Dove: § § § § 1 f (x ) = e σ 2π 1 ⎛ x − µ ⎞ − ⎜ ⎟ 2 ⎝ σ ⎠ σ deviazione standard π costante = 3.146... e base di logaritmi naturali = 2.183... ( x ! µ ) 2 scarto dalla media elevato al quadrato 6 0.4 0.2 0.1 0.0 p(x) 0.3 SD= 1 SD= 1.5 SD= 2 -3 -2 -1 0 x 1 2 3 7 1. 2. 3. 4. 5. la distribuzione normale è una distribuzione continua, con valori compresi tra -­‐∞ e +∞; la curva da essa descritta è simmetrica rispetto alla media (punto di ordinata massima); per valori di X che vanno a -­‐∞ oppure a +∞ la curva tende a zero senza mai toccare l’asse delle ascisse (la probabilità di ottenere valori “molto” lontani dalla media è “molto bassa”); è crescente per valori di X che vanno da -­‐∞ a µ, decrescente per i valori da µ a +∞ presenta due punti di flesso in corrispondenza a µ -­‐σ e µ+σ, punti in cui la curva da convessa diventa concava. 8 è la media della normale (la punta della campana) è un indicatore di posizione. Il suo variare “sposta” la campana sulla retta dei valori ¡ µ ¡ σ 2 è la varianza è un indicatore di dispersione, è legata all’ “apertura” della campana (valori più alti indicano distribuzioni più disperse). 9 ¡ Supponiamo di voler calcolare l’area compresa tra le ordinate µ=0 ! 2 =1 § z = 0 § z = 1,96 10 L’area compresa tra z = 0 e z = 1,96 è 0,475 Quindi l’area compresa tra z[-­‐∞,1.96]=0.975 Di fondamentale importanza sono i punti associati a p(z=1.64)=0.95) p(z=1.96)=0.975 11 ¡ Esempio: § Data una serie di 500 punteggi distribuiti normalmente con media 100 e deviazione standard 15, si stimi quanti possano essere i punteggi compresi tra 88 e 130. § Calcoliamo i punti zeta corrispondenti a 88 e 130, che saranno: 88 − 100 z (88) = = −0,8 15 130 − 100 z (130) = = +2 15 • Dalla lettura delle tavole ricaviamo che l’area compresa tra z = -­‐0,8 e z = 0 è pari a 0,2881;l’area compresa tra z = 0 e z = +2 è 0,4772; § L’area complessiva tra z = -­‐0,8 e z = +2 sarà 0,2881 + 0,4772 = 0,7653; § Tale valore 0,7653 può essere letto sia come proporzione dei casi compresi tra i valori 88 e 130, sia come la probabilità che il punteggio di un soggetto cada all’interno di tale intervallo; § In conclusione, per ottenere il numero di punteggi che ci si attende nell’intervallo compreso tra 88 e 130 si calcola: 0,7653× 500 = 382,65 ≅ 383 12 13 ¡ La distribuzione t di Student, pubblicata nel 1908 da W.S. Gosset, con parametro n (gradi di libertà) governa la variabile aleatoria tn = ¡ z 2 n ! n dove z e χ2 sono due variabili aleatorie indipendenti che seguono rispettivamente la distribuzione normale standard e la distribuzione chi quadrato χ2(n) con n gradi di libertà. 1. la distribuzione t è una distribuzione continua, con valori compresi tra -­‐∞ e +∞; 2. si rivela particolarmente utile nello studio di fenomeni casuali relativi a campioni piccoli (n < 30); 3. il valore dei gradi di libertà è dato da ν = n – 1 4. con ν → ∞ la distribuzione tende alla distribuzione normale Questa ha code più alte, fianchi più stretti e varianza maggiore rispetto alla Gaussiana standard. ¡ All’aumentare dei gradi di libertà la distribuzione "t" di Student Distribuzione tende rapidamente alla Gaussiana standard. t 0.4 ¡ 0.2 0.1 t " z n #1 0.0 y 0.3 Normal t gdl=1 t gdl=2 t gdl=5 ! 0 1 2 3 4 5 Valori cri)ci della distribuzione t di Student, ipotesi bidirezionale. 0.2 Distribuzione t10 0.1 t10(α=0.05,bi-­‐)=2.23 0.0 y 0.3 0.4 Distribuzione t10 0 1 2 3 4 5 df α = 0.05 α = 0.01 1 12.71 63.66 2 4.30 9.92 3 3.18 5.84 4 2.78 4.60 5 2.57 4.03 100 1.98 2.63 1000 1.96 2.58 z 1.96 2.58 Schema di procedimento per l’analisi dei dati 18 1. 2. 3. 4. Formulazione delle ipotesi; Trasformazione dei valori campionati nella corrispondente statistica (z, t, F, χ2, …) Determinazione dei valori critici a partire dal coefficiente di confidenza; Confronto tra valori calcolati a partire dal campione e valori critici con relativa decisione. 20 ¡ Obiettivo: decidere se la media di un campione è significativamente diversa dalla media di una popolazione µ . 21 La varianza σ2 della popolazione è nota? Si Utilizzo della distribuzione normale No Utilizzo della distribuzione t 22 ¡ quando σ è noto, il punto associato alla media del campione è dato da X !µ X !µ z= = !X ! n ¡ quando σ è ignoto, il punto associato alla media del campione non è più z, ma t in quanto dobbiamo utilizzare la stima di σ X !µ X !µ X !µ t= = = !ˆ x !ˆ n s n !1 23 ¡ In passato, la distribuzione t di Student veniva utilizzata solo per piccoli campioni (n < 30), per evitare calcoli elaborati. ¡ Attualmente, grazie alla diffusione dei calcolatori, la distribuzione t viene sempre utilizzata quando la varianza della popolazione è ignota, anche quando la numerosità campionaria è elevata. ¡ In ogni caso, per campioni molto numerosi (n > 250), l'utilizzo della distribuzione t porta “di fatto” agli stessi risultati rispetto a quelli della distribuzione normale. 24 esempio 1 La distribuzione del tempo impiegato da ragazzi maschi normo dotati nell'esecuzione di una prova di abilità meccanica di incastro ha media µ = 200 sec. e dev. st. σ = 20. Uno sperimentatore vuole verificare se ragazzi sordomuti maschi della stessa età diano analoghi risultati nella prova; per fare ciò sceglie un campione di n = 64 ragazzi sordomuti, che sottopone alla prova, ottenendo un tempo medio nel campione pari a 190 secondi. 25 esempio 1(2) 1. formulazione delle ipotesi H 0 : µ = 200 H1 : µ ! 200 2. calcolo del valore z Usiamo la formula per grandi campioni e σ noto: X ! µ 190 ! 200 z= = = !4 ! / n 20 / 64 26 esempio 1(3) 3. determinazione dei valori critici Fissato un livello di significatività α = 0,05, e dato che il test è bidirezionale, vengono individuate due aree uguali, ciascuna con una probabilità associata pari ad α/2. Dalla lettura della tavola delle aree della distribuzione normale si rileva che i valori critici risultano essere -1,96 e +1,96. 27 esempio 1(4) 4. decisione -4 < -1,96 Poiché |zcal| = 4 è maggiore del valore critico |zc| = 1,96, dobbiamo rigettare l'ipotesi H0. 28 esempio 1(5) Un secondo modo di procedere è quello di calcolare l'intervallo di fiducia della media e vedere se la media calcolata sul campione cade all'interno di tale intervallo: µ x ± σ x zc Sostituendo µ x= 200, σ x= 2,5, zc = 1,96 risulta: 200 ± 2,5 ·1,96 da cui deriva che l'intervallo di fiducia per la media è dato da 195,1 ≤ µ ≤ 204,9 Dal momento che X = 190 non rientra nell'intervallo di fiducia dobbiamo rigettare l'ipotesi H0 29 esempio 1(6) CONCLUSIONE: Sulla base del risultato ottenuto dai soggetti sordomuti dobbiamo ritenere che esista una diversità di prestazione nella prova di abilità; in particolare i ragazzi sordomuti hanno tempi di esecuzione più bassi dei normali. 30 ¡ ¡ ¡ ¡ Laddove la varianza della popolazione è ignota, si dovrà quindi ricorrere ad una sua stima. 2 ˆ ! 2 2 2 n , !ˆ = s Sapendo che: !ˆ X = n n !1 Si ottiene: ˆ ! n 1 2 ˆ !X = = s " = s n !1 n n n !1 Il rapporto da utilizzare per la verifica d'ipotesi sulla media, si distribuisce come il t di Student con n-­‐1 gradi di libertà. X !µ X !µ X !µ t= = = !ˆ x !ˆ n s n !1 31 ¡ ¡ Stima della varianza della popolazione dalla varianza del campione Stima della varianza della distribuzione campionaria della media di un campione xi ! X ) ( " n !ˆ = S = n !1 n !1 2 2 2 2 " ( xi ! X ) # 1 !ˆ = n n !1 n 2 Var(X) = !ˆ DS(X) = = n " ( xi ! X ) n !1 2 !ˆ 2 ( n !1) 1 1 # = # n n !1 n 32 esempio 2 Un gruppo di n = 50 soggetti con lesioni cerebrali viene sottoposto ad un test per valutare le capacità cognitive. Il punteggio medio ottenuto dai soggetti è di 97.3 con s = 12.5. Sapendo che il punteggio medio al test, quando le funzioni cognitive sono integre è pari a 100, ci chiediamo se i soggetti in questione siano menomati in maniera significativa. 33 esempio 2(2) H 0 : µ = 100 H1 : µ < 100 2. calcolo del valore t α Criterio di valutazione 1. formulazione delle ipotesi H1 1-α H0 Usiamo la formula per σ ignoto: tcal = X !µ 97.3 !100 = = !1.51 s / n !1 12.5 / 49 34 esempio 2(3) 3. determinazione dei valori critici tcrit = -1,68 α H1 Criterio di valutazione Fissato un livello di significa)vità α = 0,05, e dato che il test è monodirezionale, bisogna trovare sulla tavola della distribuzione t il punto cri)co che dà luogo ad un area 1-­‐α del 95%. 1-α H0 35 esempio 2(4) 4. decisione Poiché |tcal| = 1.51 è inferiore del valore critico |tcrit| = 1.68, non possiamo rigettare l'ipotesi H0. CONCLUSIONE: Il punteggio medio dei soggetti cerebrolesi non è inferiore rispetto a quello della popolazione normativa. La lesione cerebrale in questione non genera dei deficit significativi. 36 esempio 3 Si supponga di aver estratto a caso un campione di 16 bambini e di averli sottoposti ad un test di intelligenza. Il Q.I. medio ottenuto è 107.3 con s = 14. Ci si chiede se il campione provenga da una popolazione normale, la cui distribuzione abbia media µ = 100. 37 esempio 3(2) 2. calcolo del valore t α/2 H1 1-α H0 Criterio di valutazione H 0 : µ = 100 H1 : µ ≠ 100 Criterio di valutazione 1. formulazione delle ipotesi α/2 H1 X !µ 107.3!100 t= = = 2.019 s / n !1 14 / 16 !1 38 esempio 3(3) 3. determinazione dei valori critici Fissato un livello di significatività α = 0.05, e dato che il test è bidirezionale, vengono individuate due aree uguali, ciascuna con una probabilità associata pari ad α/2. Dalla lettura della tavola dei valori critici della t per un test bidirezionale con 15 gdl si ottiene il valore di 2.13. 39 esempio 3(4) 4. decisione Poiché |tcal | = 2.019 è minore del valore critico |tc | = 2.130, non possiamo rigettare l'ipotesi H0. CONCLUSIONE: Non possiamo escludere che i bambini del nostro campione provengano da una popolazione con media uguale a 100. 40 esempio 3(4) Approfondimento Regione di accettazione Partendo dalla formula del test sta)s)co e dal valore di tcrit con ipotesi monodirezionale, è possibile individuale la regione di acceMazione dell’ipotesi alterna)va H1: tcrit Xcrit ! µ Xcrit !100 = = = 1.75 s / n !1 14 / 16 !1 Da cui consegue: ( ) X crit = 1.75 14 / 16 "1 +100 = 106.32 E la regola decisionale: " H 0 : X <= 106.32 # $ H1 : X > 106.32 41 42 ¡ Obiettivo: decidere, attraverso il confronto tra le medie dei due campioni indipendenti, se tali campioni provengono da due popolazioni diverse o meno. 43 La varianza σ2 della popolazione da cui provengono i campioni è nota? Si, utilizzo della distribuzione normale No, utilizzo della distribuzione t Si, stima della varianza comune Le varianze sono omogenee ? No, utilizzo della formula corretta 44 ASSUNZIONI 1. entrambi i campioni sono distribuiti normalmente; 2. sono tra loro indipendenti; 3. le popolazioni da cui derivano hanno varianze omogenee. § Vedi Test-­‐F: verifica di ipotesi sulla omogeneità delle varianze. 45 Quando σ è noto, la distribuzione campionaria della differenza tra le due medie ha le seguenti caratteristiche: ¡ a) si distribuisce in forma normale § Assunto verificabile con il test non parametrico di Kolmogorov-­‐Smirnov o Shapiro-­‐Wilk ¡ ¡ b) µ x − x = µ1 − µ2 = 0 1 c) σ 2 2 x1 − x2 = σ 2 n1 + n2 46 ¡ Il test associato alla differenza tra le medie è: z x1!x2 X1 ! X 2 = ! n1 + n2 47 esempio 1 Un ricercatore vuole sapere se vi siano differenze nell'atteggiamento verso l'attività extradomestica tra le donne sposate con figli e quelle senza figli. Allo scopo somministra una scala di atteggiamento a due campioni casuali di donne coniugate, di cui n1 = 45 con figli e n2 = 36 senza figli, ottenendo i seguenti punteggi medi: X 1 = 65, X 2 = 75. Ipotizzando che la distribuzione dei punteggi sulla scala di atteggiamento sia normale in entrambi i gruppi, con σ = 10, si vuole sapere con una probabilità del 99% se i due campioni siano estratti da popolazioni con media uguale, oppure no. 48 esempio 1(2) 1. formulazione delle ipotesi H 0 : µ1 = µ 2 H1 : µ1 ≠ µ 2 2. calcolo del valore z Usiamo la formula per grandi campioni e σ noto: zcal X1 − X 2 65 − 75 = = = −9 σ / n1 + n2 10 / 45 + 36 49 esempio 1(3) 3. determinazione dei valori critici Fissato un livello di significa)vità α = 0.01, e dato che il test è bidirezionale, bisogna trovare sulla tavola della normale il punto z che dà luogo ad un area di 0.995 ? z = ± 2.58 H1 1-α H0 Criterio di valutazione α/2 Criterio di valutazione Dovremo quindi trovare il valore riferito ad α/2 = 0.005 H1 α/2 50 esempio 1(4) 4. decisione Poiché | zcal | = 9 è maggiore del valore critico | zc | = 2.58, dobbiamo rigettare l'ipotesi H0. CONCLUSIONE: Il punteggio medio delle donne con figli è significativamente diverso da quello delle donne senza figli; L'atteggiamento dei due gruppi verso il lavoro extradomestico è differente. 51 ¡ La statistica ha una distribuzione di probabilità che si approssima a quella del t di Student con (n1-­‐1)+(n2-­‐1)=n1+n2-­‐2 gradi di libertà: ¡ dove: !ˆ x1!x2 (X1 " X 2 ) t= #ˆ x1 "x 2 !2 !2 ! 1 ( n1 !1) + ! 2 ( n2 !1) 1 1 = " + n1 n2 (n1 !1) + (n2 !1) 52 X1 − X 2 σˆ x − x 1 2 n1 , n2 è la differenza tra le medie calcolate nei due campioni è la stima della deviazione standard della distribuzione campionaria della differenza tra le medie le numerosità dei due campioni 53 ¡ ¡ ¡ xi ! X ) ( " Stima della varianza n 2 2 = della popolazione dalla !ˆ = S n !1 n !1 varianza del campione Stima della varianza della distribuzione campionaria della media di un campione Stima della varianza della distribuzione campionaria della differenza tra medie di due campioni 2 # ( xi " X ) ! 1 !ˆ s n s = ! = = n n n "1 n "1 n "1 n 2 Var(X) = 2 !ˆ DS(X) = = n 2 2 # ( xi " X ) n "1 2 !ˆ 2 ( n "1) 1 1 ! = ! n n "1 n !ˆ A2 ( nA !1) + !ˆ B2 ( nB !1) 1 1 DS(X x1!x2 ) = " + n A nB (nA !1) + (nB !1) 54 esempio 2 Un commerciante verifica la durata di due diverse marche di lampadine. Con 8 lampadine della marca A ottiene una media = 1237 ore con !ˆ = 36; con 7 lampadine della marca B ottiene una media di 1036 ore con !ˆ = 40. A fronte di tale risultato il commerciante vuole sapere se la differenza tra le due medie è tale da poter affermare con una probabilità del 95% che le lampadine di marca A hanno una durata superiore a quelle di marca B. 55 esempio 2(2) 1. formulazione delle ipotesi H 0 : µA = µB H1 : µ A > µB 2. calcolo del valore t Usiamo la formula: (X1 " X 2 ) t= #ˆ x1 "x 2 56 esempio 2(3) 2. calcolo del valore t Per prima cosa dobbiamo stimare il valore della deviazione standard della differenza tra le medie: !ˆ x1!x2 !ˆ12 ( n1 !1) + !ˆ 22 ( n2 !1) 1 1 = + = n1 + n2 ! 2 n1 n2 !ˆ x1!x2 36 2 " (8 !1) + 40 2 " ( 7 !1) 1 1 = + = 19.61 8+ 7! 2 8 7 57 esempio 2(3) 2. calcolo del valore t Quindi calcoliamo il valore di t con la formula: (X1 ! X 2 ) t= = !ˆ x1!x2 1237 !1036 t= = 10.25 19.61 58 esempio 2(4) 3. determinazione dei valori critici Il livello di significatività fissato è α = 0,05; il test è unidirezionale, i gradi di libertà sono (8 + 7 - 2) = 13. t= 1.77 4. decisione Poiché tcal = 10.25 è maggiore del valore critico tc = 1.77, dobbiamo rigettare l'ipotesi H0. CONCLUSIONE: Le lampadine della marca A sono migliori di quelle della marca B. 59 ¡ ¡ Poniamo di aver raccolto dei dati da un campione A e un campione B indipendenti. Vogliamo verificare se i due campioni appartengono ad una popolazione con la medesima media. "$ H : µ = µ 0 A B # $% H1 : µ A ! µ B A 1 5 4 3 2 B 6 5 4 7 8 60 ¡ Prepariamo le informazioni necessarie al calcolo della varianza di A e B: Σ A 1 5 4 3 2 A2 1 25 16 9 4 B 6 5 4 7 8 B2 36 25 16 49 81 15 55 30 190 nA = 5 nB = 5 A = ! A nA = 3 B = ! B nB = 6 61 ¡ Come primo passo è necessario calcolare il valore della varianza: !X " 2 2 1 !ˆ = ( !X n "1 ) 2 n 2 55 " (15) 5 = = 2.5 5 "1 2 190 " (30 ) 5 !ˆ = = 2.5 5 "1 2 2 62 ¡ La statistica ha una distribuzione di probabilità che si approssima a quella del t di Student con (nA-­‐1)+(nB-­‐1) = nA+nB-­‐2 gdl: (X1 " X 2 ) t= #ˆ x1 "x 2 ¡ dove: !ˆ x1!x2 !ˆ12 ( n1 !1) + !ˆ 22 ( n2 !1) 1 1 = " + n1 + n2 ! 2 n1 n2 63 ¡ Procediamo con il calcolo della statistica t per il confronto tra medie, calcolando la stima della deviazione standard della distribuzione campionaria della differenza tra le medie: !ˆ x1!x2 !ˆ12 ( n1 !1) + !ˆ 22 ( n2 !1) 1 1 = " + = n1 n2 (n1 !1) + (n2 !1) !ˆ x1!x2 2.5" ( 5 !1) + 2.5" ( 5 !1) 1 1 5 2 = + = =1 5 !1+ 5 !1 5 5 2 5 64 ¡ La statistica t per il confronto tra medie con gradi di libertà d= 5+5-­‐2 = 8 assume il valore: X1 ! X 2 3! 6 !3 tc = = = = !3.00 !ˆ x1!x2 1.00 1.00 ¡ Per α=0.05,ip. bidirez., e d=8 il valore tcrit=2.31. ¡ Essendo tcrit<tc, possiamo accettare H1 e concludere che i due campioni appartengono a popolazioni con medie differenti. 65 ¡ Se viene violato l'assunto di omogeneità delle varianze è necessario introdurre una correzione al test. ¡ Rimane comunque necessario che la distribuzione delle popolazioni sia normale. 66 ¡ La statistica viene calcolata con la formula corretta per varianze non omogenee: (X1 ! X 2 ) t= 2 ˆ ! x1!x2 ¡ Distribuita con gradi di libertà 2 2 !ˆ x1!x2 ) ( d= 2 2 2 2 (!ˆ x1 ) (n1 !1) + (!ˆ x2 ) (n2 !1) § Equazione di Welch–Satterthwaite 67 !ˆ x21!x2 ¡ !ˆ12 !ˆ 22 s12 s22 = + = + n1 n2 n1 !1 n2 !1 è la stima della varianza della distribuzione campionaria della differenza tra le medie. 2 2 ˆ ! s !ˆ x21 = 1 = 1 n1 n1 !1 ¡ 2 2 ˆ ! s 2 2 !ˆ x2 = = 2 n2 n2 !1 sono le stime delle varianze delle distribuzioni campionarie delle medie stimate a partire dalle varianze dei campioni. 68 esempio 3 A due gruppi di n1 = 10 e n2 = 26 soggetti viene somministrato un test sull'ansia. Il primo gruppo ottiene un valore medio = 8 con s1 = 0,5; il secondo gruppo un punteggio medio = 12 con s2 = 5. Ci si chiede se i due gruppi differiscono relativamente al livello d'ansia. Supponiamo che sia violato l'assunto di omogeneità delle varianze e che i due gruppi derivino da popolazioni con varianze non omogenee. 69 esempio 3(2) 1. formulazione delle ipotesi H 0 : µ1 = µ 2 H1 : µ1 ≠ µ 2 2. calcolo del valore t Usiamo la formula: t= ( X1 − X 2 ) s12 s22 + n1 − 1 n2 − 1 70 esempio 3(3) 2. calcolo del valore t t= (8 !12) (0, 5) 2 10 !1 + (5) !4 = = !3, 95 1.014 2 26 !1 I cui gdl saranno dati da: d= (1.014) (0.05) 2 10 !1 + 2 (1) 2 ! 2 = 26.52 26 !1 71 esempio 3(3) 3. determinazione dei valori critici Il livello di significatività fissato è α = 0,05; il test è bidirezionale, i gradi di libertà sono 25.52 = 26. t= 2,052 4. decisione Poiché | tcal | = 3,95 è maggiore del valore critico | tc | = 2,052, dobbiamo rigettare l'ipotesi H0. CONCLUSIONE: I due gruppi differiscono per livello d'ansia. 72 73 Nel caso di coppie di osservazioni non indipendenti la media della distribuzione campionaria della differenza tra le medie risulta essere: µ x − x = µ x − µ x = µ1 − µ2 1 2 1 2 la varianza della distribuzione campionaria della differenza tra le medie sarà: 2 ˆ x1 − x2 σ 2 ˆ x1 2 ˆ x2 = σ + σ − 2σˆ x σˆ x rx x 1 2 1 2 in cui l'ultimo termine rx1 x2 è la correlazione tra le medie di tutti i possibili campioni non indipendenti tratti dalle popolazioni in esame. 74 Poiché non si conosce il valore di rx1 x2 è impossibile utilizzare la distribuzione campionaria della differenza tra le medie; Per superare questo inconveniente si considera un unico campione costituito da coppie di elementi appaiati; Il punteggio cui si fa riferimento è dato dalla differenza tra i punteggi di ciascuna coppia; Nell'ipotesi H0, se non vi sono differenze tra le due serie di punteggi, la media delle differenze risulterà 0. 75 Di tale differenza possiamo calcolare la media con la formula: XD D !( X ! = = i 1i n " X 2i ) n = X1 " X 2 e calcolare la varianza con: 2 $ ' D Di " " 2 ) sD = # && ) n n % ( 2 i 76 ! 1. la media è pari alla differenza tra le medie delle popolazioni da cui sono tratti i campioni µ D = µ x −x = µ1 − µ2 1 2 2. la varianza è: 2. + 2 % ( s 1 - $ Di ' $ Di * 0 2 "ˆ D = = #' * 0 n #1 n #1 n n & ) / , 2 77 3. il test t avrà la seguente forma t= sD XD n !1 !ˆ D = = "D sD = n !1 $ n& D2 ! " & n& % n 2 ! ( n n ( 2' D " ) n )) ( "D ) 2 # 1 = n !1 ) # 1 = n !1 ( ) ( n" D 2 ! "D ) 2 (n !1) Tale statistica si può calcolare direttamente dai dati grezzi con la formula: t= "D (n" D ) # (" D) 2 (n #1) 2 78 esempio 4 Si vuole studiare l'effetto dell’affatica-mento sul rendimento in una prova di precisione. A questo scopo si contano il numero di errori commessi da un gruppo di 10 soggetti in una prova di precisione. Dopo averli sottoposti ad un lavoro gravoso per un certo periodo di tempo, si contano nuovamente gli errori commessi dai 10 soggetti nella stessa prova di precisione. I dati ottenuti sono riportati nella tabella seguente. 79 esempio 4(2) sogg. A B C D E F G H I L numero di errori differenza prova 1 10 8 13 12 14 12 11 18 9 16 prova 2 12 9 15 13 16 11 13 18 10 16 D = X1 - X 2 -2 -1 -2 -1 -2 1 -2 0 -1 0 D2 4 1 4 1 4 1 4 0 1 0 12,3 13,3 -10 20 medie somme 80 esempio 4(3) 1. formulazione delle ipotesi H 0 : µ1 = µ 2 H1 : µ1 ≠ µ 2 2. calcolo del valore t Usiamo la formula: t= !D ( n! D ) " (! D ) 2 2 (n "1) 81 esempio 4(3) 1. formulazione delle ipotesi H 0 : µ1 = µ 2 H1 : µ1 ≠ µ 2 2. calcolo del valore t Usiamo la formula: t= !10 (10 " 20) ! (!10) 2 = !3 (10 !1) 82 esempio 4(4) 3. determinazione dei valori critici Con il livello di significatività α = 0,05, ipotesi bidirezionale, i gradi di libertà sono (10-1) = 9. t= 2,262 4. decisione Poiché |tcal | = 3 è maggiore del valore critico |tc |= 2,262, dobbiamo rigettare l'ipotesi H0. CONCLUSIONE: L'affaticamento influisce sui risultati della prova. 83