PSICOMETRIA Corso di laurea triennale (classe 34) VERIFICA DELL’IPOTESI CON DUE CAMPIONI CAMPIONI INDIPENDENTI Campioni estratti casualmente dalla popolazione con caratteristiche omogenee Assegnazione casuale alle diverse condizioni sperimentali SITUAZIONE SPERIMENTALE CLASSICA o ESPERIMENTO CAMPIONI INDIPENDENTI Due gruppi indipendenti uno sottoposto a trattamento (gruppo sperimentale) e uno no (gruppo di controllo) Trattamento si-no= VARIABILE INDIPENDENTE (manipolata) oppure Due gruppi indipendenti sottoposti a trattamenti diversi (gruppo sperimentale1 e gruppo sperimentale2) Trattamento 1-2 = VARIABILE INDIPENDENTE (manipolata) CAMPIONI INDIPENDENTI Rilevazione della VARIABILE DIPENDENTE su entrambi i gruppi in esame Analisi statistica per rilevare differenze a livello di variabile DIPENDENTE ascrivibili alla INDIPENDENTE (posta l’omogeneità dei gruppi) Esempio a ESPERIMENTO: Vengono estratti in modo casuale tra gli impiegati di una grande azienda 80 soggetti Vengono assegnati in modo casuale a due gruppi: gruppo sperimentale (segue un corso di aggiornamento) gruppo di controllo (nessun aggiornamento) Aggiornamento si/no= VARIABILE INDIPENDENTE (manipolata) Rilevazione del rendimento di entrambi i gruppi = VARIABILE DIPENDENTE Esempio b ESPERIMENTO: Estrazione casuale tra gli impiegati di una grande azienda di 80 soggetti Assegnazione casuale a due gruppi: gruppo sperimentale1 (segue un corso di aggiornamento) gruppo sperimentale2 (viene affiancato da un impiegato con esperienza decennale) Aggiornamento/Affiancamento= VARIABILE INDIPENDENTE (manipolata) Rilevazione del rendimento di entrambi i gruppi = VARIABILE DIPENDENTE CAMPIONI INDIPENDENTI Campioni estratti casualmente da due subpopolazioni con caratteristiche omogenee eccetto una, quella che le distingue Assegnazione non casuale alle diverse condizioni sperimentali SITUAZIONE SPERIMENTALE o QUASI ESPERIMENTO CAMPIONI INDIPENDENTI Due gruppi indipendenti distinti in base a una caratteristica= VARIABILE INDIPENDENTE (non manipolata) Rilevazione della VARIABILE DIPENDENTE su entrambi i gruppi in esame Analisi statistica per rilevare differenze a livello di DIPENDENTE ascrivibili alla INDIPENDENTE (unico tratto distintivo, posta l’omogeneità dei gruppi) Esempio QUASI ESPERIMENTO: Vengono estratti in modo casuale tra gli impiegati di una grande azienda 40 soggetti con un’esperienza lavorativa di meno di 5 anni (gruppo sperimentale 1) e 40 soggetti con un’esperienza lavorativa di più di 5 anni (gruppo sperimentale 2) Esperienza 5/+5 = VARIABILE INDIPENDENTE (non manipolata) Rilevazione del rendimento di entrambi i gruppi = VARIABILE DIPENDENTE CAMPIONI INDIPENDENTI In tutti i casi citati si parla di disegni sperimentali o quasi sperimentali tra soggetti (o between) I disegni descritti per due campioni possono essere estesi a k campioni CAMPIONI DIPENDENTI Campione estratto casualmente dalla popolazione con caratteristiche omogenee Misure ripetute due volte sullo stesso campione (prima e dopo sugli stessi soggetti) CAMPIONI DIPENDENTI Un gruppo sottoposto a due livelli (prima/dopo) della VARIABILE INDIPENDENTE (manipolata o non manipolata) Rilevazione della VARIABILE DIPENDENTE due volte sullo stesso gruppo Analisi statistica per rilevare una differenza tra le due rilevazioni ascrivibile alla INDIPENDENTE (unica differenza prima/dopo) Esempio Vengono estratti in modo casuale tra gli impiegati di una grande azienda 80 soggetti Viene rilevato il loro rendimento = VARIABILE DIPENDENTE Segue un corso di aggiornamento: Prima/Dopo l’aggiornamento = VARIABILE INDIPENDENTE (manipolata) Rilevazione del rendimento dopo l’aggiornamento = VARIABILE DIPENDENTE CAMPIONI DIPENDENTI Si parla di disegni sperimentali entro i soggetti (o within) I disegni descritti per due rilevazioni sono estendibili a k rilevazioni sugli stessi soggetti (campione) I disegni sperimentali possono essere misti ovvero contenere rilevazioni entro e tra soggetti VERIFICA DELL’IPOTESI- Campioni indipendenti • Quando confronto due gruppi (variabile indipendente) composti da diverse persone su una data misura (variabile dipendente), sto confrontando due campioni INDIPENDENTI • Quando la variabile dipendente è metrica, devo confrontare la media dei due campioni. • A seconda della numerosità dei due campioni e della conoscibilità della deviazione standard delle popolazioni, devo usare tecniche diverse Campioni indipendenti – N grandi e sigma nota Popolazioni con noti 2 Campioni INDIPENDENTI con n >30 Variabile indipendente dicotomica Variabile dipendente metrica ( Medie) DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE DISTRIBUZIONE DI PROBABILITA’ NORMALE Campioni indipendenti – N grandi e sigma nota Scelta del test statistico (di significatività): Si calcola z facendo riferimento alla dCDM Definizione dell’ipotesi: H0: H1: = 1 1 2 2 ( = 0) (bidirezionale) 1 - 2 > 2 ovvero 1 < 2 (monodirezionale) 1 Campioni indipendenti – N grandi e sigma nota Fissare il livello di significatività Regione di rifiuto secondo e H1 (mono/bi-direzionale) zcritico (come nel caso di un solo campione) Si associa una probabilità ad H0 z (M1 M2 ) ( 2 2 1 2 n1 M1 M2 1 n2 2 ) ( 1 2 ) 0 Campioni indipendenti – N grandi e sigma nota Decisione su H0 (H1): Il confronto avviene tra z e zcritico (p = area della curva associata a H0 viene confrontata con l’area di rifiuto definita da ) come nel caso di un solo campione. Campioni indipendenti – N grandi e sigma ignota • Le deviazioni standard delle popolazioni da cui estraiamo i campioni non le conosciamo quasi MAI • Se la misura è metrica, ed entrambi le numerosità campionarie sono > 30, posso comunque utilizzare la DcDM assumendo che essa si distribuisca normalmente Campioni indipendenti – N grandi e sigma ignota I punti e sono analoghi al caso precedente con noti Si associa una probabilità ad H0 stima di 1 e 2 a partire da s1 e s2 z ˆM1 M2 (M1 M2 ) s12 n1 1 ( 1 s22 n2 2 1 ) ( 1 2 ) 0 Campioni indipendenti – N grandi e sigma ignota • In pratica, questa formula permette la verifica dell’ipotesi a partire dai soli dati campionari : - si assume 1- 2 = 0 - 1 e 2 vengono stimati Situazione più frequente (quasi mai si conoscono i parametri della popolazione) Esempio Scegliendo in modo casuale 36 pazienti che hanno seguito per un certo periodo una terapia sperimentale si rileva la media da loro ottenuta su una scala sintomatologica è 25.4 1.7. Scegliendo in modo casuale 40 pazienti che hanno seguito invece una terapia tradizionale, si rileva che la media dei sintomi è 24.7 0.9. Possiamo affermare che vi sia una differenza di efficacia fra le due terapie? In che caso ci troviamo? 2 Campioni: n1=36 pazienti terapia sperimentale (n>30) n2=40 pazienti terapia tradizionale (n>30) Variabile indipendente dicotomica: Tipo di terapia Variabile dipendente metrica: Punteggio alla scala sintomatologica Scelta del test da effettuare M1=25.4; s1=1.7 e M2=24.7; s2=0.9 DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE DISTRIBUZIONE DI PROBABILITA’ NORMALE Test z di differenza fra le medie Le ipotesi H0: 1 = 2 (la media della popolazione dei pazienti trattati con la terapia sperimentale è uguale alla media dei pazienti sottoposti alla terapia tradizionale) H1: 1 2 (a media della popolazione dei pazienti trattati con la terapia sperimentale è diversa dalla media dei pazienti sottoposti alla terapia tradizionale) Dove sono le regioni di rifiuto e di accettazione di H0? Ricorda! =.05 Ipotesi alternativa bidirezionale Regione di rifiuto /2 1Regione di accettazione Regione di rifiuto /2 z Il valore critico 3. =.05 Si delinea la regione di rifiuto secondo e H1 bidirezionale trovando uno zcritico sulla Tavola z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359 0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753 0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141 0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517 0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879 0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224 0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549 0.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852 0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133 0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389 1 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621 1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830 1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015 1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177 1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319 1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441 1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545 1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633 1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706 1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767 2 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817 Il valore critico Se =.05 /2=.0250 l’area tra 0 e lo zcritico è .4750 Si trova il valore di z sulla tavola corrispondente a questa area zcritico= 1.96 per l’ipotesi bidirezionale 1- Regione di rifiuto Regione di accettazione /2 -1.96 /2 1.96 z Calcolare il nostro effetto ed attribuirgli una probabilità M1=25.4; s1=1.7 e M2=24.7; s2=0.9 M1 M2 1.72 0.92 .32 36 1 40 1 z (25.4 24.7) 0 2.19 .32 1Regione di rifiuto Regione di accettazione /2 -1.96 Regione di rifiuto /2 1.96 2.19 z Effettuare la decisione statistica 2.19 > 1.96 p< .05 Si rifiuta H0 Si accetta H1 è vera l’ipotesi alternativa Posta l’uguaglianza tra 1 = 2 la probabilità di ottenere una differenza fra le medie almeno come quella osservata è minore del 5% fissato con Pare vi sia una differenza sistematica fra gli esiti delle due terapie La media della terapia sperimentale è significativamente più elevata di quella riscontrata nella terapia tradizionale Quando invece n < 30… Popolazioni con non noti 2 Campioni INDIPENDENTI con n<30 Variabile indipendente dicotomica Variabile dipendente metrica ( Medie) DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE DISTRIBUZIONE DI PROBABILITA’ t Quando invece n < 30… Scelta del test statistico (di significatività): Si calcola t facendo riferimento alla dCDM Definizione dell’ipotesi: Il confronto è tra le due popolazioni di riferimento H0: H1: 1 1 1 = = 0) 2 (bidirezionale) > 2 ovvero 1 < 2 (monodirezionale) 2 ( 1 - 2 VERIFICA DELL’IPOTESI Fissare il livello di significatività e calcolare i gdl, per individuare il valore critico : In base a gdl=n1+n2-2 H1 (mono/bi-direzionale) Si delinea la regione di rifiuto trovando tcritico sulla Tavola VERIFICA DELL’IPOTESI Si associa una probabilità ad H0 t ˆM1 M2 (M1 M2 ) n1s12 n2s22 n1 n2 2 ( 1 2 ) ( 1 2 n1 n2 n1n2 Decisione su H0 (H1): Il confronto avviene tra t e tcritico come nel caso di un solo campione. ) 0 Esempio Per confrontare l’efficacia di due corsi di sostegno per studenti con difficoltà, vengono scelti in modo casuale 30 studenti con problemi di apprendimento: 16 seguono il corso Esperienziale e 14 il corso Normativo. Il punteggio medio ad un test di rendimento è 107 10 per il primo gruppo, 112 8 per il secondo gruppo. Cosa possiamo dire? Scelta del test 2 Campioni: n1=16 Gruppo Esp (n<30) n2=14 Gruppo Nor (n<30) Variabile indipendente dicotomica: Corso Variabile dipendente metrica: Punteggio al test M1=107; s1=10 e M2=112; s2=8 DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE DISTRIBUZIONE DI PROBABILITA’ t Le ipotesi H0: 1 = 2 (la media degli studenti che seguono il metodo Esp. è uguale a quella degli studenti che seguono il metodo Nor.) H1: 1 2 (bidirezionale, ovvero la media degli studenti che seguono il metodo Esp. è diversa da quella degli studenti che seguono il metodo Nor.) =.01 e gdl=16+14-2=28 Si delinea la regione di rifiuto secondo , gdl e H1 bidirezionale trovando un tcritico sulla Tavola = 2.76 Il valore critico =.01 e gdl=16+14-2=28 Si delinea la regione di rifiuto secondo , gdl e H1 bidirezionale Calcolo l’effetto e gli associo una probabilità M1=107; s1=10 e M2=112; s2=8 M1 M2 16 102 14 82 16 14 2 107 112 t 3.45 Regione di rifiuto /2 -2.76 16 14 16 14 1.45 Regione di rifiuto Regione di accettazione 1-1.45 3.45 /2 2.76 t Prendo la decisione statistica 1.45 < 2.75 p> .01 Si accetta H0 è vera l’ipotesi nulla Posta l’uguaglianza tra 1 = 2 la probabilità di ottenere le medie osservate è maggiore dell’1% fissato con Tra i due metodi c’è una differenza ascrivibile al caso Le medie delle due popolazioni che hanno seguito il metodo Esperienziale e il metodo Normativo sono uguali In altre parole, i due metodi producono gli stessi risultati Altro esempio Scegliendo in modo casuale 25 pazienti che hanno frequentato per un anno il Terapeuta A: si rileva che la loro media al BDI è 10.36 4.95 Scegliendo in modo casuale 37 pazienti che hanno frequentato per un anno il Terapeuta B: si rileva che la loro media al BDI è 15.84 2.00 Possiamo affermare che vi sia una differenza tra lo stato depressivo dei pazienti dei due terapeuti? 2 Campioni: n1=25 Terapeuta A (n<30) n2=37 Terapeuta B (n>30) Variabile indipendente dicotomica: Terapeuta Variabile dipendente metrica: Sintomi M1=10.36; s1=4.95 e M2=15.84; s2=2 DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE DISTRIBUZIONE DI PROBABILITA’ t H0: = (la media della popolazione dei pazienti di A è uguale a quella dei pazienti di B) H1: 1 1 2 2 (bidirezionale, la media della popolazione dei pazienti di A è diversa a quella dei pazienti di B) =.05 Si delinea la regione di rifiuto secondo e H1 bidirezionale trovando una tcritica sulla Tavola Rappresentazione grafica aree di accettazione e rifiuto – test bidirezionale H 0 1Regione di accettazione /2 t critico Regione di rifiuto /2 t critico =.05, bidirezionale, gdl=25+37-2=60 Si delinea la regione di rifiuto secondo , gdl e H1 bidirezionale e si trova tcritico = ? Esempio M1=10.36; s1=4.95 e M2=15.84; s2=2 n1=25, n2=37 t t (M1 M 2 ) n1s12 n2 s22 n1 n2 2 n1 n2 n1n2 10.36 15.84 25 4.952 37 22 25 37 2 5.48 612.5 148 62 62 925 25 37 25 37 5.48 12.675 .067 5.48 .92 5.95 5.95 > 2.00 p< .05 H0 1Regione di rifiuto /2 -5.95 -2.00 Regione di accettazione 0 Regione di rifiuto /2 2.00 t Commento Si rifiuta H0 Si accetta H1 l’ipotesi nulla è poco plausibile Posta l’uguaglianza tra 1 = 2 la probabilità di ottenere le medie osservate è minore del 5% fissato con ; ne concludo che, con un rischio di errore del 5%: Tra i pazienti di A e di B vi è una differenza non ascrivibile al caso La media dei sintomi dei pazienti di A è significativamente diversa dalla media di quelli di B VERIFICA DELL’IPOTESI CON CAMPIONI DIPENDENTI Dato un campione di ampiezza n dal quale sono state tratte le misure xi e yi, possiamo calcolare la media delle differenze tra le due misure n MD i 1 Di n Di xi yi VERIFICA DELL’IPOTESI CON CAMPIONI DIPENDENTI Nel caso di due campioni dipendenti poiché abbiamo in realtà un solo campione, estraiamo un’unica misura La verifica delle ipotesi si basa su una media DISTRIBUZIONE CAMPIONARIA DELLE MEDIE Distribuzione t di Student con n-1 gradi di libertà VERIFICA DELL’IPOTESI Popolazioni con non noti 2 Campioni DIPENDENTI Variabile indipendente dicotomica Variabile dipendente metrica ( Media) DISTRIBUZIONE CAMPIONARIA DELLE MEDIE DISTRIBUZIONE DI PROBABILITA’ t VERIFICA DELL’IPOTESI Scelta del test statistico (di significatività): Si calcola t facendo riferimento alla dCM Definizione dell’ipotesi: Il confronto è tra le due popolazioni di riferimento H0: H1: =0 0 (bidirezionale) D D> 0 ovvero D< 0 (monodirezionale) D VERIFICA DELL’IPOTESI Fissare il livello di significatività e calcolare i gdl : In base a gdl=n-1 H1 (mono/bi-direzionale) Si delinea la regione di rifiuto trovando tcritico sulla Tavola VERIFICA DELL’IPOTESI Si associa una probabilità ad H0 n MD n sD i 1 Di i 1 n MD n Di 2 t MD D sD n 1 D 0 ˆD Decisione su H0 (H1): Il confronto avviene tra t e tcritico come nel caso di un solo campione. Su 8 pazienti con attacchi di panico viene rilevata la Esempio frequenza degli attacchi mensili prima e dopo una psicoterapia breve. I risultati sono i seguenti: Prima (xi) Dopo (yi ) 5 4 8 5 9 6 6 4 8 9 4 5 4 2 8 7 C’è un miglioramento nella frequenza degli attacchi di panico? VERIFICA DELL’IPOTESI Scelta del test statistico (di significatività): Si calcola t facendo riferimento alla dCM Definizione dell’ipotesi: H0 : H1 : =0 0 (bidirezionale) D D> 0 ovvero D< 0 (monodirezionale) D Fissare il livello di significatività In base a e calcolare i gdl : gdl=n-1 H1 (mono/bi-direzionale) Si delinea la regione di rifiuto trovando tcritico sulla Tavola VERIFICA DELL’IPOTESI Si associa una probabilità ad H0 n Di MD n 2 n Di sD i 1 MD t MD D sD n 1 i 1 n D 0 ˆD Decisione su H0 (H1): Il confronto avviene tra t e tcritico come nel caso di un solo campione. Esempio 2 Campioni dipendenti ovvero due misure sugli stessi soggetti: n=8 Variabile indipendente dicotomica: Tempo (prima/dopo la terapia) Variabile dipendente metrica: Numero attacchi DISTRIBUZIONE CAMPIONARIA DELLE MEDIE DISTRIBUZIONE DI PROBABILITA’ t Esempio H0: D = 0 (la media della differenza tra H1: D > 0 (la media della differenza tra prima e dopo è uguale a zero, cioè non c’è differenza prima/dopo, e la terapia non ha funzionato) prima e dopo è maggiore di zero, cioè c’è un decremento dopo la terapia) Esempio =.05 e gdl=8-1=7 Si delinea la regione di rifiuto secondo , gdl e H1 monodirezionale: il tcritico è? Esempio Si procede con il calcolo di MD e sD (utilizzando le formule con i dati grezzi) Sogg. 1 2 3 4 5 6 7 8 xi 5 8 9 6 8 4 4 8 yi 4 5 6 4 9 5 2 7 Di 1 3 3 2 -1 -1 2 1 10 Di2 1 9 9 4 1 1 4 1 30 MD sD 10 1.25 8 30 2 1.25 1.48 8 Esempio MD=1.25; sD=1.48 t 1.25 1.48 8 1 2.23 Domanda: Quale è la probabilità di osservare un valore uguale o maggiore a 2.23 se è vera H0? Regione di accettazione 1- Regione di rifiuto 1.89 2.23 t Esempio 2.33 > 1.89 p< .05 Si rifiuta H0 Si accetta H1 è vera l’ipotesi alternativa Posto D = 0, la probabilità di ottenere le medie osservate è minore del 5% fissato con ; ne concludo che: Tra i prima e dopo c’è una diminuzione significativa degli attacchi I risultati suggeriscono che la terapia ha avuto l’effetto desiderato.