Strrumenti psic cometrrici di analis si dei d dati Tecn niche di rice erca e analisi dati La statistica t ti ti è facile!!! Ripasso Psicometria Strrumenti psic cometrrici di analis si dei d dati Tecn niche di rice erca e analisi dati La statistica t ti ti è facile!!! Distribuzione normale DISTRIBUZIONE NORMALE z z È definita da: μ=media della popolazione σ=d.s. σ=d s della popolazione Ha le seguenti caratteristiche: INFINITA: va da -∞ a +∞ SIMMETRICA rispetto alla Y massima (f(x)= punto più alto Öx=μ) UNIMODALE (μ=Mo=Me) ASINTOTICA: si avvicina all’asse delle X senza mai toccarlo μ X DISTRIBUZIONE NORMALE Per qualsiasi valore x che la variabile può assumere, attraverso la funzione si calcola la y corrispondente yi = Y 1 σ 2π e 1 ⎛ x −μ ⎞ − ⎜ i ⎟ 2⎝ σ ⎠ yi μ xi X 2 DISTRIBUZIONE NORMALE per -∞<x<μ e DECRESCENTE per μ<x<+∞ Ödue punti di flesso a μ ± σ CRESCENTE Y yμ = Punti di flesso 1 σ 2π Media=Moda=Mediana Asintotica -∞ μ-σ μ μ+σ X +∞ DISTRIBUZIONE NORMALE La curva NORMALE è definita dai parametri μ eσ z Abbiamo un’ampia famiglia di distribuzioni normali con medie e deviazioni standard diverse… z Y μ1≠ μ2 ≠ μ3 σ 1≠ σ 2 ≠ σ 3 μ2 μ1 μ3 X DISTRIBUZIONE NORMALE z Oppure famiglie di distribuzioni normali con diversa media e con uguale deviazione standard μ1≠ μ2 ≠ μ3 Y σ1=σ 2 =σ 3 μ2 μ1 μ3 X DISTRIBUZIONE NORMALE z Qualsiasi siano i parametri μ e σ, ll’area area della porzione di curva delimitata dalla media e un ordinata espressa in termini di deviazioni standard è costante Ö μ+σ= 34.13% della distribuzione Ö μ+2σ= 47.73% della distribuzione Ö μ+3σ= 49.86% della distribuzione Y 99.73% 95 46% 95.46% 68.26% μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ Strrumenti psic cometrrici di analis si dei d dati Tecn niche di rice erca e analisi dati La statistica t ti ti è facile!!! Distribuzioni campionarie Il campionamento e l’inferenza statistica •Il problema centrale dell’inferenza statistica è quello di generalizzare alla popolazione i risultati (ad es., media, diff differenze medie, di associazioni, i i i ecc.)) ottenuti tt ti a lilivello ll di un campione. •Popolazione = un insieme di unità statistiche che condividono una o più caratteristiche •Es: la popolazione dei pazienti con diagnosi di depressione bipolare •Campione = sottoinsieme della popolazione, composto da unità estratte preferibilmente in modo casuale dalla popolazione •Es: Es: i pazienti partecipanti ad un trial clinico sull’efficacia sull efficacia di una terapia per la depressione Il campionamento e l’inferenza statistica Sul campione si calcolano le STATISTICHE (ad es., M) del campione per conoscere i PARAMETRI (ad es es, μ) della popolazione. Questo passaggio dalle STATISTICHE ai PARAMETRI si basa sulla conoscenza delle proprietà delle DISTRIBUZIONI CAMPIONARIE dei d i parametri t i ((μ)) z Se si estraggono tutti i possibili campioni di ampiezza n da una popolazione (con μ e σ) e si calcola per ognuno la media, ottengo: DISTRIBUZIONE CAMPIONARIA DELLA MEDIA (dCM), anch’essa normale e caratterizzata da una media (μM) e una deviazione standard, detta errore standard (σ ( M) DISTRIBUZIONE CAMPIONARIA DELLA MEDIA z Se la popolazione è infinita o se il campionamento è con reinserimento: la media della distribuzione campionaria i i è uguale l alla ll media di d della ll popolazione l i e l’ errore standard è uguale alla deviazione standard della popolazione fratto la radice di n μM = μ z σM = σ n Se la popolazione è finita ((N)) o il campionamento è senza reinserimento, la media della distribuzione campionaria è uguale alla media della popolazione e l’errore l’ standard t d d diventa di t appena più iù complicato: li t μM = μ σ M = σ n N − n N −1 LEGGE DEI GRANDI NUMERI z All aumentare di n la varianza della distribuzione campionaria All’aumentare della media diminuisce e tende a zero z Più ampi sono i campioni: più alta è la probabilità che la media di ognuno di essi sia vicina a quella della popolazione la varianza della dCM si riduce Quando N=n la varianza della dCM è zero σ 2 M 2 < σ 2 M 1 dCM2 con n n= 20 dCM1 con n= 10 popolazione μM1= μM2= μ M < σ 2 TEOREMA DEL LIMITE CENTRALE: dCM e Normale z Se si estraggono ripetuti campioni di ampiezza n da una popolazione, qualsiasi sia la forma della distribuzione nella popolazione: all’aumentare di n la distribuzione campionaria della media tende ad avvicinarsi alla normale e può essere considerata normale per n≥30 DISTRIBUZIONE CAMPIONARIA DELLA MEDIA DISTRIBUZIONE CAMPIONARIA DELLE MEDIE con n>30 DISTRIBUZIONE DI PROBABILITA NORMALE S STANDARDIZZATA TRASFORMAZIONE IN z μM= media della dCM (=μ) ( ) M media da M=media standardizzare z= M − μM σ n n= ampiezza i campionaria i i σM= errore standard della dCM DISTRIBUZIONE NORMALE z La distribuzione riparametrizzata sulla scala z standardizzata mantiene le caratteristiche della curva normale Ö entro z = 1 34.13% della distribuzione Ö entro z = 2 47.73% della distribuzione Ö entro z = 3 49.86% della distribuzione 99.73% Y 95 46% 95.46% 68.26% -3 -2 -1 0 1 2 3 A che serve la z? A che serve l’errore standard? z La trasformazione in z, traduce una differenza fra medie dalla metrica originaria (es: peso), in una nuova metrica, in cui la nuova unità di misura corrisponde all’errore standard z Possiamo risalire alla probabilità di osservare una discrepanza dalla media dell’entità espressa da z. Infatti, la z, segue la distribuzione normale di probabilità z Rispetto alle differenze fra medie nella metrica originaria, la z cii aiuta i t a capire i quanto t è iimportante t t iin termini t i i probabilistici b bili ti i la differenza osservata. Questo perché ll’errore errore standard è un’unità un unità di misura delle differenze più interessante rispetto alle unità di misura originarie. pp l’errore medio della stima che noi L’errore standard rappresenta effettuiamo calcolando la media campionaria Una differenza grande svariate volte l’errore medio della stima, è un evento poco probabile probabile, e tutto ciò che è poco probabile è in genere molto informativo. ESEMPIO USO z Poniamo di aver ottenuto su un campione di nostri pazienti (n = 19) un punteggio pari a 25.5 in un test di depressione. e Nel campione normativo il test ha una media di 24.1 con ds = 1.7. e Il mio campione è “strano” rispetto a quello normativo? e zM = M − μ σ n M 25.5 − 24.1 zM = = 3.58 1 .7 19 Tavola z ESEMPIO Ne posso concludere che il mio campione rappresenta un caso estremo ed improbabile della popolazione fOppure, posso sospettare che faccia parte di una popolazione diversa rispetto a quella fotografata dal campione normativo di standardizzazione del test f Probabilità di circa 2 su diecimila 3.58 z ESEMPIO USO z - 2 Poniamo di aver ottenuto su un campione di nostri pazienti (n = 19) un punteggio pari a 24.5 in un test di depressione. e Nel campione normativo il test ha una media di 24.1 con ds = 1.7. e Il mio campione è “strano” rispetto a quello normativo? e zM = M − μ σ n M 24.5 − 24.1 zM = = 1.02 1 .7 19 Tavola z ESEMPIO Ne posso concludere che il mio campione rappresenta un caso relativamente banale e abbastanza rappresentativo della popolazione fotografata dal campione normativo fOppure, i dati possono confermare che il mio campione proviene probabilmente dalla medesima popolazione da cui è stato tratto il campione normativo f Probabilità di circa il 15% 1.02 z RIASSUMENDO… z La dCM la si ottiene calcolando la media di ciascun campione estratto da una popolazione con una sua distribuzione con μ eσ z La media della dCM è la media delle medie, la deviazione standard t d d sii calcola l l con glili scarti ti di ciascuna i media di campionaria dalla media delle medie z L POPOLAZIONE può La ò avere di distribuzione: t ib i Normale diversa dalla normale non nota z Se n>30 la distribuzione delle medie dei campioni da essa estratti è NORMALE, per qualunque distribuzione della variabile. DISTRIBUZIONE CAMPIONARIA DELLA MEDIA: t di Student z La POPOLAZIONE può avere distribuzione: Normale diversa dalla normale non nota z z Se n<30 la distribuzione delle medie dei campioni è d l ti del tipo t di Student. St d t Ha H lle seguenti ti caratteristiche: tt i ti h INFINITA, SIMMETRICA, UNIMODALE, ASINTOTICA DISTRIBUZIONE t di Student a confronto con la Normale z Rispetto alla normale la varianza della distribuzione sarà maggiore Perché n < 30 (campioni piccoli) curva più appiattita e code più lunghe (ad es. la porzione di area compresa tra ± 1 σ dalla media di sarà à minore i d dell 68%) Distribuzione Normale Distribuzione t di Student -σ μ +σ t DISTRIBUZIONE t di Student z z z La forma della distribuzione t varia secondo la dimensione n dei campioni Ciasc na distribuzione Ciascuna distrib ione t è definita dai parametri μ, σ e ν = gradi di libertà ν = n − 1 La t è quindi una Famiglia di distribuzioni legate a il numero di ν = gradi di libertà (all’aumentare di ν la distribuzione tende alla normale) Di t ib i Distribuzione Normale N l Distribuzione t di S d Student con ν=30 30 Distribuzione t di Student con ν=5 t DISTRIBUZIONE t di Student z Come per la normale ∞ p ( −∞ < x < ∞ ) = ∫ f ( t ) dt d =1 −∞ z La curva definisce una distribuzione di probabilità Ö Distribuzione di probabilità t definita dall’indicatore: M − μ t = σˆ M M σˆ = M s ν ν = n −1 DISTRIBUZIONE t: RIASSUMENDO DISTRIBUZIONE CAMPIONARIA DELLE MEDIE con n<30 DISTRIBUZIONE DI PROBABILITA’ t TRASFORMAZIONE IN Media M di da d standardizzare M − μM t= s n −1 Gradi di libertà legati a n = ampiezza campionaria t Media della dCM (=μ) Errore standard della dCM stimato a partire da s ESEMPIO USO t Poniamo di aver ottenuto su un campione di nostri pazienti (n = 19) un punteggio medio pari a 25.3 (d.s. = 1.7) in un test di depressione. e Le tabelle del campione normativo suggeriscono che punteggi superiori a 25 sono da considerarsi problematici. e Quanto è problematico il mio campione? e M − μM t= s n −1 25.3 − 25 t= = .75 1.7 19 − 1 Tavola t A che serve la t z Come la trasformazione in z, la trasformazione in t scala le differenze osservate secondo una nuova unità ità di misura i d data t d dall’errore ll’ standard. t d d Attenzione: non confondere la distribuzione t con i punteggi t i “T”! z Questa nuova scala segue una distribuzione nota È possibile stabilire intervalli di confidenza intorno alla media campionaria per stimare la media della popolazione Possiamo sapere quanto è probabile osservare una data differenza rispetto ad una media data della popolazione 9Se una differenza supera di svariate volte l’errore standard di misura ci troviamo di fronte ad una differenza improbabile, improbabile e quindi interessante e informativa Strrumenti psic cometrrici di analis si dei d dati Tecn niche di rice erca e analisi dati La statistica t ti ti è facile!!! Distribuzioni campionarie della differenza fra le medie Distribuzione campionaria della differenza fra medie z Se si estraggono da due popolazioni distribuite normalmente (con medie μ1 e μ2, varianze σ12 e σ22 ) un gran numero di campioni indipendenti di ampiezza n1 e n2, e si calcola la differenza tra le loro medie ottengo: DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE (dCDM) z La DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE L (dCDM) è caratterizzata da: una media (μ ( M1-M2); un errore standard (σM1-M2) z Se n1 e n2 sono maggiori S i i di 30, 30 per il Teorema T del d l lilimite it centrale, la dCDM è normale qualsiasi sia la distribuzione delle p p popolazioni Distribuzione campionaria della differenza fra medie z La media della distribuzione campionaria della differenza tra medie è uguale alla differenza delle medie μ1 e μ2 delle due popolazioni μ M −M = μ M − μ M 1 z 1 2 L’errore standard è uguale alla radice quadrata della somma delle varianze σ12 e σ22 delle due popolazioni fratto le rispettive ampiezze campionarie n1 e n2 σM z 2 1 −M 2 = σ 12 n1 + σ 22 n2 Usando questo errore standard possiamo riscalare la differenza osservata fra le due medie in termini di errore standard (trasformazione in z) Distribuzione campionaria della differenza fra medie Se σ12 e σ22 non sono note occorre stimarle a partire d s12 e s22 Ö Stima da Si d dell’errore ll’ standard d d VARIANZE STIMATE DELLA POPOLAZIONE n1 2 s1 σˆ = n1 − 1 2 1 σˆ M 1 −M 2 = n2 2 s2 σˆ = n2 − 1 2 2 s12 s 22 + n1 − 1 n 2 − 1 Distribuzione campionaria della differenza fra medie z La z rappresenta un caso particolare, più in generale: Se n1 e n2 sono minori di 30 la DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE ((dCDM) non è normale Distribuzione t di Student con gradi di libertà: gdl = n1 + n2 - 2 t= x1 − x 2 − ( μ1 − μ 2 ) ⎛ n1s12 + n2 s22 ⎞⎛ n1 + n2 ⎞ ⎜⎜ ⎟⎟⎜⎜ ⎟⎟ ⎝ n1 + n2 − 2 ⎠⎝ n1n2 ⎠ ) σ x −x 1 2 Interpretazione delle differenze fra medie in termini di probabilità z Se una differenza fra medie si traduce in una z (o t) di determinata entità, possiamo controllare la probabilità di osservare una differenza di quella entità Ö differenze maggiori di z = ±1 Capitano meno del 32% delle volte Ö differenze maggiori di z = ± 2 Capitano meno del 5% delle volte Ö differenze maggiori di z = ± 3 Capitano meno del 1% delle volte 99.73% Y 95 46% 95.46% 68.26% -3 -2 -1 0 1 2 3 Riassumendo z Le distribuzioni della differenza campionaria delle media sono concettualmente simili alle distribuzioni campionarie delle media media. z Siccome conosciamo la forma di queste distribuzioni (o sono normali o sono del tipo t) è possibile calcolare un indicatore normali, delle differenze (o z o t) tramite il quale deriviamo un’indicazione probabilistica dell’entità delle differenze osservate. t z La z è un caso particolare (distribuzione normale) di un caso più iù generale l (di (distribuzione t ib i t) z Ricordiamoci che differenze grandi (grandi z o grandi t) indicano differenze poco probabili. probabili z Ora sappiamo tutto ciò che ci serve per affrontare la verifica delle ipotesi ipotesi. Strrumenti psic cometrrici di analis si dei d dati Tecn niche di rice erca e analisi dati La statistica t ti ti è facile!!! VERIFICA DELLE IPOTESI INFERENZA STATISTICA z Teoria della verifica dell dell’ipotesi ipotesi : si verifica, in termini probabilistici, se una certa affermazione relativa alla popolazione è da ritenersi vera sulla base dei dati campionari Questo approccio è il più tipico in psicologia z Teoria della stima dei parametri: si stabilisce, in termini probabilistici, il valore numerico di uno o più parametri incogniti della popolazione a partire dai dati campionari Questo approccio è meno frequente in psicologia z Formulazione Ipotesi Statistiche z Raccolta dati sul Campione (ottenuto - idealmente - con campionamento casuale) z Decisione (in base alla Teoria della Probabilità) sempre soggetta ad errore si assume a priori un rischio accettabile (poco probabile) di errore FORMULAZIONE DELLE IPOTESI z Si formulano due ipotesi: H0 : ipotesi nulla 9(“non c’è effetto”) H H1 : ipotesi i t i alternativa, lt ti o sostantiva, t ti o sperimentale 9 (“qualche effetto c’è”) z Per verificare un’ipotesi p ((H1) che afferma la presenza di effetti, si assume che sia invece vera un’ipotesi un ipotesi contraria (H0 ), che nega la presenza di effetti. FORMULAZIONE DELLE IPOTESI z Si calcola la probabilità di osservare valore pari almeno al valore “sperimentale” (quello ottenuto) assumendo come vera l’ipotesi nulla. Se tale probabilità è bassa si decide che H0 è falsa, e H1 è verosimile. Bisogna però ricordare che H0 può essere vera, e che noi abbiamo semplicemente sbagliato campionamento. z Es: Due diverse terapie garantiscono diversa efficacia? H0 (ipotesi nulla): non esiste una differenza tra due terapie H1 (ipotesi alternativa): esiste una differenza tra due terapie Si cerca di falsificare probabilisticamente l’ipotesi che non vi siano diff differenze (H0) per dimostrare di t che h lla diff differenza c’è ’è (H1) FORMULAZIONE DELLE IPOTESI z Ipotesi sperimentale H1 può essere: Semplice: si fissa un unico valore del parametro Composta: si fissano diversi valori possibili del parametro MONODIREZIONALE (una coda) prevede la direzione della differenza BIDIREZIONALE (due code) non prevede direzione H0 : μs = μc H1 : μ = 60 Semplice oppure μs< μc Composta p Monodirezionale oppure μs> μc Composta Monodirezionale oppure μs ≠ μc Composta Bidirezionale DECISIONE SU H0 z Si calcola la probabilità associata agli eventi osservati posto che H0 sia vera z se la probabilità è alta accetto H0 z se la probabilità è bassa respingo H0 e accetto H1 H0 Alta Bassa Bassa 0 LIVELLO DI SIGNIFICATIVITÀ z Come si stabilisce che la probabilità associata a H0 è alta o bassa? Si definiscono dei limiti probabilistici: entro certi livelli di probabilità accetto H0 oltre certi livelli di probabilità rifiuto H0 Il livello di significatività = α: z Definisce la regione di Rifiuto di H0 α é una probabilità Regione della distribuzione campionaria composta dai risultati che hanno una probabilità molto bassa di essere osservati quando H0 è vera z Definisce la regione di Accettazione di H0 Regione della distribuzione campionaria composta dai risultati che hanno una probabilità molto alta di essere osservarti quando H0 è vera (1- α). DECISIONE SU H0: Regioni di accettazione rifiuto per ipotesi monodirezionali zRicorda! Ri d ! L’area sotto la curva rappresenta una probabilità L’asse delle ascisse rappresenta una statistica (z o t) H0 Regione di accettazione (1- α) Regione di rifiuto α H1 monodirezionale di i l 0 DECISIONE SU H0: Regioni di accettazione rifiuto per ipotesi bidirezionali zRicorda! Ri d ! L’area sotto la curva rappresenta una probabilità L’asse delle ascisse rappresenta una statistica (z o t) H0 Regione di accettazione ((1- α)) Regione di rifiuto Regione di rifiuto α/2 α/2 0 H1 bidirezionale bidi i l LIVELLO DI SIGNIFICATIVITÀ z Sia p il valore di probabilità calcolato per l’evento osservato α se p > α : Accetto H0 e Rifiuto H1 p α se p < α : Rifiuto H0 e Accetto H1 p REGOLE DI DECISIONE Regole g di decisione su base probabilistica La decisione non è mai certa La decisione è sempre soggetta ad errore Il rischio di errore che ci sentiamo di correre è rappresentato da α REGOLE DI DECISIONE: Errori zStabilire S bili il lilivello ll di α significa: i ifi Stabilire il rischio che siamo disposti a correre di commettere l’errore di respingere i H0 quando d è vera (Errore (E di I° tipo) i ) z Si tende a stabilire un valore di α basso perché: è preferibile non affermare l’esistenza di un fenomeno se non si è probabilisticamente “sicuri” sicuri della sua presenza “Andare appresso” a risultati apparentemente significativi (che dipendono p da eccessivo errore di campionamento) p ) è scientificamente una perdita di tempo zα = .05 Ö rischio di sbagliare rifiutando H0 quando essa è vera = 5 volte su 100 zα = .01Ö rischio di sbagliare rifiutando H0 quando essa è vera = 1 volta su 100 zα = .001Ö rischio di sbagliare rifiutando H0 quando essa è vera = 1 volta su 1000 REGOLE DI DECISIONE: Errori z S H0 è vera: Se si può decidere di accettare H0 = Decisione corretta si può decidere di rifiutare H0 = Decisione scorretta (Errore di I° tipo) z ERRORE DI I° TIPO Respingo H0 quando è vera Accetto H1 quando è falsa z z Commettendo l’errore di I tipo si considera presente (vero) un effetto assente (falso) nella popolazione La probabilità di questo errore è α α= probabilità di evidenziare un fenomeno che in realtà non esiste α= probabilità di rintracciare un effetto presente solo in un campione (per errore di campionamento), ma assente nella popolazione di riferimento REGOLE DI DECISIONE: Errori z Se H0 è falsa: si può decidere di rifiutare H0 : Decisione corretta si può decidere di accettare H0 : Decisione scorretta (Errore di II° tipo) z ERRORE DI II° TIPO Accetto H0 quando è falsa Ö Rifiuto H1 quando è vera z z Si considera assente (falso) un effetto presente (vero) nella popolazione di riferimento La probabilità di questo errore è β β = probabilità di non evidenziare un fenomeno che in realtà esiste β = probabilità di non rintracciare un effetto assente solo nel campione osservato, ma in realtà presente nella popolazione di riferimento z Purtroppo P t il valore l di β, β a differenza diff di quello ll di α, non può ò essere determinato Relazione fra α e β H0 H1 Regione di accettazione 1-β β 1α 1-α Regione di accettazione β α D=0 Campione appartenente ad una popolazione dove H0 è falsa, ma che conduce ad errore di II tipo D≠0 Campione appartenente ad una popolazione dove H0 è vera, ma che conduce ad errore di I tipo Relazione fra α e β H0 H1 Regione di accettazione 1-β β 1α 1-α Regione di accettazione β α D=0 D≠0 •Se Se α diminuisce, diminuisce β aumenta. aumenta Evitare errori di I° tipo può portare ad una elevata probabilità di commettere errori di II° tipo p REGOLE DI DECISIONE Ipotesi H0 è vera Decisione Accetto H0 Decisione Corretta (1 α)) (1- Rifiuto H0 Decisione Errata Errore di I° I tipo (α ) H0 è falsa Decisione Errata E Errore di II° tipo ti (β ) Decisione Corretta (1 - β ) POTENZA DEL TEST • La potenza poten a del test è la probabilità di respingere H0 quando q ando è vera era H1 Ö 11- β • Capacità del test di condurre alla decisione corretta • La potenza di un test è determinata fondamentalmente dalla grandezza del campione de ca p o e • Inoltre, la potenza è determinata dalla grandezza dell’effetto. • Infine, la potenza è in parte influenzata dal tipo di analisi statistica effettuata. L’applicabilità L applicabilità delle tecniche di analisi dipende a sua volta da: ¾Livello di misura ¾G Grandezza a de a ca campione po e ¾Distribuzione • Strrumenti psic cometrrici di analis si dei d dati Tecn niche di rice erca e analisi dati La statistica t ti ti è facile!!! VERIFICA DELLE IPOTESI: Ip passi da seguire g VERIFICA DELL’IPOTESI: I passi da seguire – IIn base b a: Livello di misurazione variabile/i 9Categoriale 9Ordinale 9Intervalli 9Rapporti – Caratteristiche del/dei campione/i (n° e tipo) 1 CAMPIONE 2 CAMPIONI k CAMPIONI dipendenti indipendenti indipendenti c Scelta del test statistico (di significatività) dipendenti VERIFICA DELL’IPOTESI: I passi da seguire d Definizione dell’ipotesi: H0: IPOTESI NULLA (da falsificare) H1: IPOTESI ALTERNATIVA (da verificare) IPOTESI SEMPLICE IPOTESI COMPOSTA MONODIREZIONALE BIDIREZIONALE VERIFICA DELL’IPOTESI: I passi da seguire e Fissare il livello di significatività α = p probabilità p prefissata di considerare H0 falsa quando è vera (errore di 1° tipo) Ö Si delinea la regione di rifiuto in base a: – – α prefissato Tipo di H1 (mono/bi-direzionale) (mono/bi direzionale) Nel fissare α devo tenere anche conto della potenza che mi aspetto del test, e quindi: Considerare C id lla grandezza d attesa tt d dell effetto ff tt iipotizzato ti t Avere un’idea della numerosità campionaria Scegliere il test più potente fra quelli appropriati VERIFICA DELL’IPOTESI: I passi da seguire f Associare una probabilità ad H0: Test statistico Ø Distribuzioni campionarie Ø Distribuzioni teoriche di probabilità (T (Tavole) l ) g Decisione su H0 (ÖH1): 9Se la probabilità associata ad H0 è maggiore di α (p ( > α)) Ö Si accetta tt H0 9Se la probabilità associata ad H0 è minore di α (p < α)) Ö Si rifiuta H0 Ö Si accetta H1 Strrumenti psic cometrrici di analis si dei d dati Tecn niche di rice erca e analisi dati La statistica t ti ti è facile!!! VERIFICA DELLE IPOTESI CON 1 CAMPIONE Esempio z Sappiamo che, considerando l’intera popolazione di pazienti di un professionista negli anni precedenti precedenti, il punteggio medio dei pazienti allo STAI era 24 7±1 7 24.7±1.7. z Scegliendo in modo casuale 36 pazienti accorsi dal professionista nell’ultimo anno, si osserva che il punteggio medio da loro ottenuto è 25 25.4. 4 z Possiamo inferire che i pazienti dell’anno dell anno in corso siano più ansiosi rispetto a quelli degli anni precedenti? VERIFICA DELL’IPOTESI Popolazione con μ e σ noti 1 Campione p n>30 Variabile metrica (Ö Media) Ø DISTRIBUZIONE CAMPIONARIA DELLE MEDIE Ø DISTRIBUZIONE DI PROBABILITA’ NORMALE VERIFICA DELL’IPOTESI c Scelta del test statistico di significatività: Si calcola z facendo riferimento alla dCM d Definizione dell dell’ipotesi: ipotesi: Confronto con la popolazione di riferimento H0: μM = μ H1: μM ≠ μ (bidirezionale) μM > μ oppure μM < μ (monodirezionale) Domanda: Nell’esempio precedente, quale ipotesi veniva formulata? VERIFICA DELL’IPOTESI e Fissare il livello di significatività α Ö Si delinea la regione di rifiuto secondo α e H1 (mono/bi-direzionale) trovando uno zcritico sulla Tavola f Si associa una probabilità ad H0 standardizzando la media in oggetto zM = M − μ σ n M VERIFICA DELL’IPOTESI g D i i Decisione su H0 (ÖH1): ) Il confronto avviene tra z e zcritico (p = area della curva associata a H0 viene confrontata con l’area di rifiuto definita da α) ⏐z⏐<⏐zcritico iti ⏐ = p > α Ö Si accetta H0 Ö è vera l’ipotesi nulla ⏐z⏐>⏐zcritico⏐ = p < α Ö Si rifiuta H0 Ö Si accetta H1 Ö è vera l’ipotesi alternativa ESEMPIO c 1 Campione: n=36 pazienti (n>30) Variabile metrica: punteggio STAI Ö M=25.4; μ= 24.7; 24 7 σ=1.7 17 Ø DISTRIBUZIONE CAMPIONARIA DELLE MEDIE Ø DISTRIBUZIONE DI PROBABILITA’ NORMALE ESEMPIO d H0: μM = μ (la (l media di d della ll di distribuzione t ib i campionaria è uguale a quella della popolazione, ovvero la l media di d dell’anno ll’ corrente t è uguale l a quella degli anni precedenti) H1: μM > μ (monodirezionale destra, ovvero la media dell’anno corrente è maggiore di quella degli anni precedenti) e α=.05 Ö Si delinea la regione di rifiuto secondo α e H1 monodirezionale destra trovando uno zcritico sulla Tavola ESEMPIO Devo rintracciare lo scostamento dalla media (valore critico) che corrisponde alla probabilità alpha sotto un’ipotesi alpha, un ipotesi monodirezionale 1-α Regione di accettazione α Regione di rifiuto z critico ii 95% (.95) 5% (.05) ESEMPIO Per iipotesi P t i monodirezionali, di i li Se S α=.05 05 Ö l’area tra 0 e lo zcritico è .4500 (su una sola coda d ll di della distribuzione); t ib i ) l’area oltre lo zcritico deve essere minore di .0500 050050% (.50) 45% (.45) 1-α Regione R i di accettazione α Regione di rifiuto z critico ii 95% (.95) 5% (.05) Tavola z z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359 0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753 0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141 0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517 0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879 0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224 0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549 Z critico 0.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852 0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133 0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389 1 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621 1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830 1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015 1 3 .4032 1.3 4032 .4049 4049 .4066 4066 .4082 4082 .4099 4099 .4115 4115 .4131 4131 .4147 4147 .4162 4162 .4177 4177 1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319 1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441 1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545 1 7 .4554 1.7 4554 .4564 4564 .4573 4573 .4582 4582 .4591 4591 .4599 4599 .4608 4608 .4616 4616 .4625 4625 .4633 4633 1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706 1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767 2 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817 1 α 1−α ESEMPIO Se α=.05 S 05 Ö l’area l’ ttra 0 e llo zcritico è .4500; 4500 l’area oltre lo zcritico deve essere minore di .0500 0500 Ö Si trova il valore di z sulla tavola corrispondente aq questa area Ö zcritico=1.65 p per l’ipotesi p mono. dx (quadrante positivo degli assi cartesiani) 1-α Regione R i di accettazione Regione d rifiuto di f α 1.65 z ESEMPIO f Calcolo della statistica z n=36,, σ=1.7 Ö σM = 1.7 36 = .28 25.4 − 24.7 z= = 2.5 .28 1-α Regione di accettazione Regione di rifiuto ifi t 1.65 2.5 z ESEMPIO g ⏐2.5⏐>⏐1.65⏐ Ö p< .05 Ö Si rifiuta H0 Ö Si accetta H1 Ö si considera falso l’ipotesi nulla e “vera” quella alternativa Posta l’uguaglianza tra μM = μ la probabilità di ottenere una media come q quella osservata è minore del 5% % fissato con α; ne concludo che: Ö La media dei pazienti dell’anno dell anno corrente si discosta significativamente dalla media generale. Ö In I quell’anno ll’ i pazienti i ti iin iingresso erano significativamente più ansiosi che in passato VERIFICA DELL’IPOTESI Popolazione P l i con σ non noto t 1 Campione n>30 Variabile metrica (Ö Media) Ø DISTRIBUZIONE CAMPIONARIA DELLE MEDIE Ø DISTRIBUZIONE DI PROBABILITA’ NORMALE ERRORE STANDARD STIMATO zM M − μM = s n −1 σˆ M = s n −1 Esempio z La media della popolazione in un questionario di autostima è uguale a 100. z Un U campione i di 61 soggetti tti di divorziati, i ti selezionati a caso, sottoposto al test ottiene una media di 98±7.5. z Possiamo P i concluderne l d che h i di divorziati i ti h hanno un’autostima più bassa rispetto alla popolazione generale? Esempio c 1 Campione: n= 61 divorziati (n>30) n Variabile metrica: Punteggio al questionario autostima. Ö M= 98; s= 7.5 μ= 100 Ø DISTRIBUZIONE CAMPIONARIA DELLE MEDIE Ø DISTRIBUZIONE DI PROBABILITA’ NORMALE Esempio d H 0 : μM = μ (la media della distribuzione campionaria è uguale a quella della popolazione) H1: μM < μ (monodirezionale sinistra, cioè la media dei neoeconomisti è minore di quella generale) e α α=.01 .01 Ö Si delinea la regione di rifiuto secondo α e H1 (monodirezionale sinistra) trovando uno zcritico sulla Tavola iti Esempio Per α=.01 P 01 monodirezionale: di i l l’area l’ tra 0 e llo zcritico è .4900; l’area oltre zcritico è minore di .0100. 0100 1-α 99% (.99) Regione d rifiuto di f 1% (.01) Regione g di accettazione α z critico iti Tavola z Z critico 1−α α Esempio Per ipotesi monodirezionali, monodirezionali Se α α=.01 01 Ö ll’area area tra 0 e lo zcritico è .4900; l’area oltre zcritico è minore di .0100. Ö Il valore l di z sulla ll ttavola l corrispondente i d t a questa t area è: zcritico= -2.33 per l’ipotesi è mono. sx (quadrante negativo degli assi cartesiani) 1-α Regione g di rifiuto Regione R i di accettazione α -2.33 z Esempio f n=61, 61 σ=non noto, t s=7.5 75Ö 98−100 z= = −2.06 .97 σˆ M = 7.5 61 − 1 1-α Regione di rifiuto Regione di accettazione α -2.33 -2.06 z = .97 Esempio ⏐2.06⏐<⏐2.33⏐ ⏐ ⏐ ⏐ ⏐ Ö p > .01 Ricordare che il test confronto va effettuato sui valori assoluti delle due z. z Ö Si accetta H0 Ö non posso considerare falsa l’ipotesi nulla Posta l’uguaglianza tra μM = μ la probabilità di ottenere una media come quella osservata è maggiore dell’1% fissato con α Ö La media dei divorziati non si discosta significativamente d ll media dalla di nella ll popolazione. l i Ö I divorziati mostrano un livello di autostima analogo a quello della popolazione. VERIFICA DELL’IPOTESI Popolazione con σ non noto p n<30 1 Campione Variabile metrica (Ö Media) Ø DISTRIBUZIONE CAMPIONARIA DELLE MEDIE Ø DISTRIBUZIONE DI PROBABILITA’ t VERIFICA DELL’IPOTESI c d Scelta del test statistico (di significatività): Si calcola t facendo riferimento alla dCM Definizione dell’ipotesi: Il confronto è con la popolazione di riferimento H0: μM = μ H1: μM ≠ μ (bidirezionale) μM > μ ovvero μM < μ (monodirezionale) VERIFICA DELL’IPOTESI e Fissare il livello Fi li ll di significatività i ifi ti ità α e calcolare i gdl . I base In b a: α gdl=n-1 dl 1 H1 (mono/bi-direzionale) … si delinea la regione di rifiuto trovando tcritico sulla ll T Tavola l TAVOLA DI t Riporta i valori di t in base a: α, α H1, gdl • Esempio: α =.01 H1 bidirezionale n=11 Ö gdl=10 t=±3.17 VERIFICA DELL’IPOTESI f Si associa una probabilità ad H0 calcolando: M − μM t = s n −1 g Decisione su H0 (ÖH1): Il confronto avviene tra t e tcritico trovato sulla tavola ⏐ ⏐ ⏐ critico⏐ = p > α ⏐t⏐<⏐t Ö Si accetta H0 Ö è verosimile l’ipotesi p nulla ⏐t⏐>⏐tcritico⏐ = p < α Ö Si rifiuta H0 Ö Si accetta H1 Ö è plausibile ll’ipotesi ipotesi alternativa Esempio z Vengono selezionati in modo casuale 26 pazienti Narcisisti; li si intervista e si calcola il numero medio di “relazione relazione positive” positive , pari a 10± 3. z Se la media delle “relazioni positive” fra i pazienti con altre diagnosi è 12, si può affermare che il narcisismo conduce a maggiori problemi di relazione rispetto ad altre diagnosi? Esempio c 1 Campione: n = 26 Narcisisti (n<30) Variabile metrica: Numero di “relazioni relazioni positive” Ö M= 10; s= 3 μ= 12 Ø DISTRIBUZIONE CAMPIONARIA DELLE MEDIE Ø DISTRIBUZIONE DI PROBABILITA’ t Esempio d H0: μM = μ: la media della distribuzione campionaria è uguale a quella della popolazione cioè la media dei narcisisti è uguale a quella generale H1: μM < μ (monodirezionale sinistra) cioè i è lla media di di ““relazioni l i i positive” iti ” dei d i narcisisti i i ti è minore di quella generale Esempio e α=.05 e gdl=26-1=25 ÖSi delinea d li l regione la i di rifiuto ifi t secondo d α, gdl dl e H1 monodirezionale trovando un tcritico sulla Tavola ÖQuale sarà il valore critico? Esempio f n=26, σ=non noto, s=3 Ö 10−12 t= = −3.33 0.6 σˆ M = 3 26 − 1 1-α Regione di rifiuto α -3.33 Regione di accettazione -1.71 t = 0.6 Esempio g ⏐3.33⏐>⏐1.71⏐ Ö p< .05 Ö Si rifiuta H0 Ö Si accetta H1 Ö è plausibile ll’ipotesi ipotesi alternativa Posta l’uguaglianza tra μM=μ la probabilità di ottenere una media come quella osservata è minore del 5% fissato con α; ne concludo che: Ö La media dei narcisisti si discosta significativamente dalla media generale. Ö Si può tentativamente affermare che i narcisisti soffrano di problemi più gravi di tipo relazionale rispetto ad altre diagnosi. Esempio t un campione z Con SPSS Statistiche per un campione N pregiudizi 26 Media 10 0000 10,0000 Deviazione std. 3 00000 3,00000 Errore std. Media ,58835 58835 Test per un campione Valore oggetto del test = 12 pregiudizi t -3,399 3 399 df 25 Sig. (2-code) ,002 002 Differenza fra medie -2,00000 2 00000 Intervallo di confidenza per la differenza al 95% Inferiore Superiore -3,2117 3 2117 -,7883 7883 Non viene riportato il valore critico, solo la probabilità di osservare un risultato più estremo se H0 è vera Altro Esempio SPSS t un campione z Con SPSS Statistiche per un campione N N tti i Notti_insonn 39 Media 5,5000 000 Deviazione std. 1 863 8 1,86378 Errore std. Media ,29844 298 Test per un campione Valore oggetto del test = 5 Notti_insonn t 1,675 df 38 Sig (2-code) Sig. (2 code) ,102 Differenza fra medie ,50000 Intervallo di confidenza per la differenza al 95% Inferiore Superiore -,1042 1,1042 VERIFICA DELL’IPOTESI per Un campione: Riassumiamo • Nel caso in cui σ non è noto (il caso più frequente nella pratica) è sempre corretto usare t. 9Per n>30 i valori di t e z praticamente coincidono 9 è quindi indifferente fare riferimento all’una all una o all’altra distribuzione. • Si ppuò notare,, inoltre,, che la formula per p il calcolo di t e z se σ non è noto è identica Strrumenti psic cometrrici di analis si dei d dati Tecn niche di rice erca e analisi dati La statistica t ti ti è facile!!! VERIFICA DELLE IPOTESI CON 2 CAMPIONI Esempio z Scegliendo in modo casuale 25 pazienti che hanno frequentato per un anno il Terapeuta A: si rileva che la loro media al BDI è 10.36 ±4.95 z Scegliendo in modo casuale 37 pazienti che hanno frequentato q p per un anno il Terapeuta p B: si rileva che la loro media al BDI è 15.84 ±2.00 z Possiamo P i affermare ff che h vii sia i una diff differenza ttra lo stato depressivo dei pazienti dei due terapeuti? VERIFICA DELL’IPOTESI Popolazioni con σ non noti 2 Campioni INDIPENDENTI Variabile indipendente dicotomica (Città) Variabile dipendente metrica (Ö Medie) Ø DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE Ø DISTRIBUZIONE DI PROBABILITA’ t VERIFICA DELL’IPOTESI c S l del Scelta d l test statistico i i (di significatività): i ifi i i à) Si calcola t facendo riferimento alla dCDM Definizione dell’ipotesi: H0: μ1 = μ2 ( μ1 - μ2 = 0) H1: μ1 ≠ μ2 (bidirezionale) μ1 > μ2 ovvero μ1 < μ2 (monodirezionale) Fissare il livello di significatività α e calcolare i gdl : d In base a α gdl=n1+n2-2 H1 (mono/bi-direzionale) ( /b d l ) Ö Si delinea la regione di rifiuto trovando tcritico sulla Tavola VERIFICA DELL’IPOTESI Si associa una probabilità ad H0 f t = σˆ M g 1 −M 2 (M 1 − M 2 (μ1 − μ2 ) = 0 ) − (μ1 − μ 2 ) ⎛ n 1 s 12 + n 2 s 22 ⎜⎜ ⎝ n1 + n 2 − 2 ⎞⎛ n1 + n 2 ⎟⎟ ⎜⎜ ⎠⎝ n1 n 2 ⎞ ⎟⎟ ⎠ Decisione su H0 (ÖH1): Il confronto avviene tra t e tcritico come nel caso di un solo campione campione. Oppure, coi software, si confronta α con p Esempio c 2 Campioni: n1=25 Terapeuta A (n<30) n2=37 Terapeuta B (n>30) Variabile indipendente dicotomica: Terapeuta p metrica: Sintomi Variabile dipendente Ö M1=10.36; s1=4.95 e M2=15.84; s2=2 Ø DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE Ø DISTRIBUZIONE DI PROBABILITA’ t Esempio d H0: μ1 = μ2 (la media della popolazione dei pazienti di A è uguale a quella dei pazienti di B) H1: μ1 ≠ μ2 (bidirezionale, bidi i l la l media di d della ll popolazione dei pazienti di A è diversa a quella d i pazienti dei i ti di B) e α α=.05 Ö Si delinea la regione g di rifiuto secondo α e H1 bidirezionale trovando una tcritica sulla Tavola Esempio Rappresentazione grafica aree di accettazione e rifiuto – test bidirezionale H0 1-α α/2 Regione di accettazione t critico ii Regione di rifiuto α/2 t critico ii Esempio α=.05, bidirezionale, gdl=25+37-2=60 Ö Si delinea la regione di rifiuto secondo α, gdl e H1 bidirezionale e si trova tcritico = ? Esempio f M1=10.36; s1=4.95 e M2=15.84; s2=2 Ön1=25, n2=37 t= t= ( (M1 − M 2 ) ⎛ n1s12 + n2 s22 ⎞⎛ n1 + n2 ⎞ ⎟⎟ ⎟⎟⎜⎜ ⎜⎜ ⎝ n1 + n2 − 2 ⎠⎝ n1n2 ⎠ 10.36 −15.84 ) ( ⎡ 25× 4.952 + 37× 22 ⎢ 25 + 37 − 2 ⎣ − 5.48 )⎤⎜⎛ 25+ 37 ⎞⎟ = ⎥ 25× 37 ⎠ ⎦⎝ − 5.48 − 5.48 = = = = −5.95 .92 12.675×.067 ⎡ (612.5) + (148) ⎤⎛ 62 ⎞ ⎟ ⎜ ⎢⎣ ⎥ 62 ⎦⎝ 925⎠ Esempio g ⏐5.95⏐>⏐2.00⏐ ⏐5 95⏐>⏐2 00⏐ Ö p< .05 05 H0 1-α Regione di rifiuto ifi t α/2 -5.95 5 95 -2.00 2 00 Regione di accettazione 0 Regione di rifiuto α/2 2.00 2 00 t Esempio 6 Commento C t p nulla è Ö Si rifiuta H0 Ö Si accetta H1 Ö l’ipotesi poco plausibile Posta l’uguaglianza l uguaglianza tra μ1 = μ2 la probabilità di ottenere le medie osservate è minore del 5% fissato con α; ne concludo che che, con un rischio di errore del 5%: Ö Tra i pazienti di A e di B vi è una differenza non ascrivibile al caso Ö La media dei sintomi dei pazienti del terapeuta A è significativamente diversa dalla media dei pazienti del terapeuta B Esempio t due campioni z Con SPSS Esempio t due campioni z Con SPSS Statistiche di gruppo g pp sintomi Terapeuta A B N 25 37 Deviazione std. 4 94874 4,94874 2,00712 Media 10 3600 10,3600 15,8378 Errore std. Media ,98975 98975 ,32997 T t per campioni Test i i indipendenti i di d ti Test di Levene di uguaglianza delle varianze F sintomi Assumi varianze ug 33,442 Non assumere varianze uguali Sig. Sig ,000 Test t di uguaglianza delle medie t -6,054 -5,250 tervallo di confidenz Differenza per la differenza al 95% Differenza errore df Sig (2-code)fra Sig. (2-code) fra medie standard Inferiore Superiore 60 ,000 -5,47784 ,90477 -7,28765 -3,66803 29,389 ,000 -5,47784 1,04330 -7,61040 -3,34527 Altro esempio t due campioni z Confrontiamo due gruppi randomizzati, sottoposti a due terapie. Ci aspettiamo che la terapia “2” sia significativamente più efficace α = .05, monodirezionale Statistiche di gruppo Terpia 1,00 2,00 Sintomi1 N 11 14 Media 9,5455 13,6429 Deviazione std std. 4,61224 6,61708 Errore std. Media 1,39064 1,76849 Test per campioni indipendenti Test di Levene di uguaglianza delle varianze Sintomi1 Assumi varianze uguali Non assumere varianze uguali F 1,456 Sig. ,240 Test t di uguaglianza delle medie t -1,744 -1,821 23 Sig. (2-code) ,094 Differenza fra medie -4,09740 22,743 ,082 -4,09740 df Differenza errore standard 2,34927 2,24976 Intervallo di confidenza per la differenza al 95% Inferiore Superiore -8,95724 ,76243 -8,75430 ,55950 Esercizio: z Quale è la probabilità oltre t 1.74 su una sola coda? z Su un’ipotesi H1 monodirezionale, accetto o rifiuto l’ipotesi nulla con t=1.74 e n=25? p 1.74 t Strrumenti psic cometrrici di analis si dei d dati Tecn niche di rice erca e analisi dati Campioni dipendenti CAMPIONI DIPENDENTI z Campione estratto casualmente dalla popolazione con caratteristiche omogenee Misure ripetute due volte sullo stesso campione (prima e dopo sugli stessi soggetti; in diverse occasioni, riguardo diversi concetti…) z Un gruppo sottoposto a due livelli (prima/dopo) della VARIABILE INDIPENDENTE (manipolata o non manipolata) z Rilevazione della VARIABILE DIPENDENTE due volte sullo stesso gruppo z Analisi statistica per rilevare una differenza tra le d rilevazioni due il i i ascrivibile i ibil alla ll INDIPENDENTE (unica ( i differenza prima/dopo) z Esempio Vengono estratti in modo casuale 80 pazienti tra i pazienti di un gruppo di terapeuti ÖAl tempo 1 viene rilevata la loro insonnia VARIABILE INDIPENDENTE (manipolata) Ö I pazienti i ti sii sottopongono tt ad d una tterapia i centrata sulla riduzione dell’attivazione emotiva: Prima/Dopo la terapia VARIABILE DIPENDENTE Ö Al tempo 2 (dopo la terapia) rilevazione dell’ insonnia CAMPIONI DIPENDENTI Si parla di disegni sperimentali entro i soggetti (o within) z I disegni descritti per due rilevazioni sono estendibili a k rilevazioni sugli g stessi soggetti gg (campione) z I disegni sperimentali possono essere misti z Vale a dire, includono sia rilevazioni entro sia tra i soggetti Esempio z Su 8 pazienti con attacchi di panico viene rilevata la frequenza degli attacchi mensili prima i ed dopo una psicoterapia i t i b breve. z I risultati sono i seguenti: Prima (xi) Dopo (yi ) z Assistiamo A i ti 5 4 8 5 9 6 6 4 8 9 4 5 4 2 8 7 a un miglioramento i li t nella ll ffrequenza degli attacchi di panico? VERIFICA DELL’IPOTESI CON CAMPIONI DIPENDENTI z Il test viene effettuato sulla media delle differenze dato che la variabile dipendente è su scala di misura metrica. metrica Sempre controllare la scala di misura! z Dato un campione di ampiezza n dal quale sono state tratte le l misure i xi e yi, possiamo i calcolare l l lla media delle differenze tra le due misure n M D = ∑D i =1 n i Di = xi − yi VERIFICA DELL’IPOTESI CON CAMPIONI DIPENDENTI z Nel caso di due campioni dipendenti poiché abbiamo in realtà un solo campione, ci riferiremo alla distribuzione di un’unica media data dalla differenza fra due variabili. z La verifica delle ipotesi si basa su una media Ö DISTRIBUZIONE CAMPIONARIA DELLE MEDIE Ö Distribuzione t di Student con n-1 gradi di libertà VERIFICA DELL’IPOTESI c Scelta del test statistico (di significatività): Si calcola t facendo riferimento alla dCM d Definizione dell’ipotesi: H0: μD = 0 H1: μD ≠ 0 (bidirezionale) μD> 0 ovvero μD< 0 (monodirezionale) e Fissare il livello di significatività α e calcolare i gdl : In base a α gdl=n-1 gdl n1 H1 (mono/bi-direzionale) Ö Si delinea d li l regione la i di rifiuto ifi t trovando t d tcritico sulla Tavola VERIFICA DELL’IPOTESI f Si associa i una probabilità b bilità ad d H0 n M n sD = g ∑ (D i =1 i D −M n = D ∑D i =1 n ) 2 i t = M D − μD μD = 0 sD n −1 σˆ D Decisione su H0 ((ÖH1)): Il confronto avviene tra t e tcritico come nel caso di un solo campione. Esempio c 2 Campioni dipendenti ovvero due misure sugli stessi soggetti: n=8 Variabile indipendente dicotomica: Tempo (prima/dopo la terapia) Variabile dipendente metrica: Numero attacchi Ø DISTRIBUZIONE CAMPIONARIA DELLE MEDIE Ø DISTRIBUZIONE DI PROBABILITA’ t Esempio d H0: μD = 0 (la media della differenza tra prima e dopo è uguale a zero zero, cioè non c’è cè differenza prima/dopo, e la terapia non ha funzionato) H1: μD > 0 (la media della differenza tra prima i ed dopo è maggiore i di zero, cioè i è c’è ’è un decremento dopo la terapia) e α=.05 e gdl=8-1=7 Ö Si delinea la regione di rifiuto secondo α, gdl e H1 monodirezionale trovando un tcritico sulla Tavola a o a = 1.89 89 Esempio z Si procede con il calcolo di MD e sD (utilizzando le formule con i dati grezzi) Sogg. xi Sogg 5 1 8 2 9 3 6 4 8 5 4 6 4 7 8 8 yi 4 5 6 4 9 5 2 7 Di 1 3 3 2 -1 1 -1 2 1 10 Di2 1 9 9 4 1 1 4 1 30 10 M D = = 1.25 8 30 2 sD = − (1.25) = 1.48 8 Esempio f MD=1.25; sD=1.48 Ö 1.25 t= = 2.23 1.48 8 −1 Domanda: Quale è la probabilità di osservare un valore uguale o maggiore a 2.23 se è vera H0? Regione di accettazione 1-α Regione di rifiuto α 1.89 2.23 t Esempio g ⏐2.33⏐>⏐1.89⏐ Ö p< .05 Ö Si rifiuta H0 Ö Si accetta H1 Ö è vera l’ipotesi alternativa Posto μD = 0, la probabilità di ottenere le medie osservate è minore del 5% fissato con α; ne concludo che: Ö Tra T i prima i ed dopo c’è ’è una di diminuzione i i significativa degli attacchi Ö I risultati suggeriscono che la terapia ha avuto l’effetto desiderato. Con SPSS… Statistiche per cam pioni appaiati Coppia 1 panico_pre tes t panico_pos t tes t Media 6,5000 5,2500 N 8 8 Deviaz ione std. 2,00000 2,12132 Errore std. Media ,70711 ,75000 Correlazioni per campioni appaiati ATTENZIONE: QUESTO NON E’ IL TEST CHE CI INTERESSA N Coppia 1 panico_pre panico pre test e panico_post test Correlazione 8 Sig. ,707 ,050 Tes t pe r cam pioni appaiati Media Coppia 1 panico_pre tes t panico_post tes t 1,25000 Dif f erenze a coppie Intervallo di c onf idenza per la dif f erenza al 95% D i iione Deviaz E Errore std. td Inf eriore Superiore std. Media 1,58114 DOBBIAMO GUARDARE QUESTO! ,55902 -,07187 2,57187 t 2,236 df Sig. (2-code) 7 ,060