PSICOMETRIA Corso di laurea triennale (classe 34) DISTRIBUZIONI DI PROBABILITA’ DISTRIBUZIONE DI PROBABILITA’ I possibili risultati di un esperimento costituiscono uno spazio campionario di n eventi A ciascun evento possiamo associare la probabilità del suo verificarsi DISTRIBUZIONE DI PROBABILITA’ definita da tutti i possibili risultati e le corrispondenti probabilità PSICOMETRIA Corso di laurea in Valutazione e Consulenza clinica (classe 34) DISTRIBUZIONE BINOMIALE DISTRIBUZIONE BINOMIALE Quando ciascun evento semplice può avere soltanto due possibili risultati mutuamente escludentisi (per es. testa o croce; vero o falso; ecc.) dalla loro combinazione (ripetendo le prove) si ottengono eventi composti indipendenti ai quali è possibile associare la probabilità del loro verificarsi. Esempio Un test è composto da 10 domande con risposta vero/falso. Quali sono le probabilità associate ai possibili risultati? n = 10 prove eseguite k = 010 eventi favorevoli n-k = 010 eventi non favorevoli p = 1/2 = probabilità di successo q = 1/2 = probabilità di insuccesso DISTRIBUZIONE BINOMIALE p(k) n k nk pq k dove: p(k) = probabilità associata a k eventi favorevoli in n prove n = numero delie prove k = numero degli eventi favorevoli (successi) che va da 0 a n Continua… DISTRIBUZIONE BINOMIALE p(k) n k nk pq k dove: n-k = numero degli eventi non favorevoli (insuccessi) p = probabilità associata al successo q = probabilità associata all’insuccesso = coefficiente binomiale, ovvero nCk n k n Ck n k n! k! n k ! Fattoriale: n fattoriale (n !) prodotto degli interi positivi da n a 1 n! n n 1 n 2 ... n n 1 Per il calcolo, occorre moltiplicare n per tutti i numeri interi che lo precedono Esempio di fattoriali 9!= 9 8 7 6 5 4 3 2 1=60480 6!=6 5 4 3 2 1=6x5!= 720 3!=3 2 1=6 2!=2 1=2 1!=1x1=1 0!=1 (per convenzione) DISTRIBUZIONE BINOMIALE Se a k si fanno assumere tutti i valori da 0 a n probabilità associate: p(0) n 0 n pq 0 p(1) n 1 n1 pq 1 p(2) n 2 n2 pq 2 n! p2qn 2 k! n k ! p(n) n k nk pq k pn qn k=0 npqn 1 k=1 k=n k=2 DISTRIBUZIONE BINOMIALE Se a k si fanno assumere tutti i valori da 0 a 10 si calcolano le relative probabilità p(0) p(1) p(2) p(10) 0 10 0 10 .50 .50 0 1 10 1 10 .50 .50 1 2 10 2 10 .50 .50 2 10 10 10 10 .50 .50 10 .001 k = 0 .01 k = 1 .044 k=2 .001 k = 10 DISTRIBUZIONE BINOMIALE La somma di tutte le probabilità ottenute al variare di k da 0 a 10 è uguale a 1 p(k) k p(k) 0 1 2 3 4 5 6 7 8 9 10 .001 .01 .044 .117 .205 .246 .205 .117 .044 .01 .001 n k 1 Distribuzione discreta simmetrica p(k) 1 0 1 2 3 4 5 6 7 8 9 10 k DISTRIBUZIONE BINOMIALE La somma di tutte le probabilità associate ai possibili risultati è uguale a 1 Le probabilità così calcolate definiscono una distribuzione di probabilità binomiale che ha la caratteristica di essere discreta La distribuzione di probabilità binomiale è definita dai parametri p e q Tavola B (del manuale) DISTRIBUZIONE BINOMIALE Se p=q=.50 la distribuzione è simmetrica Se p q .50 la distribuzione è asimmetrica Se p <.50 è asimmetrica positiva Se p >.50 è asimmetrica negativa Aumentando n (il numero delle prove) la distribuzione tende alla simmetria qualsiasi sia p .50 Esempio Un test è composto da 10 domande con risposta vero/falso/non so. Quali sono le probabilità associate ai possibili risultati? n = 10 eventi possibili k = 010 eventi favorevoli n-k = 010 eventi non favorevoli p = 1/3 = probabilità di successo q = 2/3 = probabilità di insuccesso Esempio Se a k si fanno assumere tutti i valori da 0 a 10 si calcolano le relative probabilità 0 p(0) 10 0 1 3 p(1) 10 1 1 3 p(2) 10 2 1 3 1 2 2 3 2 3 2 3 10 0 .02 k=0 .08 k=1 10 1 10 2 .19 k=2 … p(10) 10 1 10 3 10 2 3 10 10 .0000 k = 10 Esempio La somma di tutte le probabilità ottenute al variare di k da 0 a 10 è uguale a 1 p(k) k p(k) 0 1 2 3 4 5 6 7 8 9 10 .017 .087 .193 .258 .227 .136 .039 .016 .003 .0000 .0000 n k 1 Distribuzione discreta asimmetrica positiva (p < .50) p(k) 1 . . 0 1 2 3 4 5 6 7 8 9 10 k DISTRIBUZIONE BINOMIALE Proprietà della binomiale Come una qualsiasi distribuzione di frequenza la distribuzione di probabilità binomiale ha una media, una varianza e una deviazione standard np 2 npq npq Esempio n=10, p=.50 e q=.50 10 .50 2 5 10 .50 .50 10 .50 .50 2.5 1.58 n=10, p=1/3 e q=2/ 10 .333 2 10 .333 .666 2.22 3.33 2.22 1.49 PSICOMETRIA Corso di laurea in Valutazione e Consulenza clinica (classe 34) DISTRIBUZIONE NORMALE DISTRIBUZIONE NORMALE La distribuzione NORMALE è rappresentata da una particolare curva continua a forma campanulare (gaussiana) Y X RELAZIONE TRA BINOMIALE E NORMALE Lancio moneta: k= “risultato testa” con p=0.5 p n=1 lancio 0.5 0 1 k RELAZIONE TRA BINOMIALE E NORMALE Lancio moneta: k= “risultato testa” p 0.375 • 0.25 .0625 n=4 lanci • • • 0 • 1 2 3 4 k RELAZIONE TRA BINOMIALE E NORMALE Lancio moneta: k=“risultato testa” p 0.246 0.205 .0117 0.44 0.010 0.001 • • • • • 0 1 2 3 4 n=10 lanci • 5 • 6 • • • 7 8 9 • 10 k DISTRIBUZIONE NORMALE E’ definita dalla seguente equazione: Y fx 1 e 2 dove: =media della popolazione =d.s. della popolazione =costante (=3.14) e=costante (=2.718) 1 x 2 2 DISTRIBUZIONE NORMALE Per qualsiasi valore x che la variabile può assumere, attraverso la funzione si calcola la y corrispondente yi Y 1 e 2 yi xi X 1 xi 2 2 DISTRIBUZIONE NORMALE Ha le seguenti caratteristiche: INFINITA: va da - a + SIMMETRICA rispetto alla Y massima (f(x)= punto più alto x= ) UNIMODALE ( =Mo=Me) ASINTOTICA: si avvicina all’asse delle X senza mai toccarlo DISTRIBUZIONE NORMALE CRESCENTE per - <x< e DECRESCENTE per <x<+ due punti di flesso a da Y y Punti di flesso 1 2 Media=Moda=Mediana Asintotica - - + X + DISTRIBUZIONE NORMALE La curva NORMALE è definita dai parametri e famiglia di distribuzioni normali con medie e deviazioni standard diverse Y 1 1 2 1 3 X 2 2 3 3 DISTRIBUZIONE NORMALE Qualsiasi siano i parametri e , l’area della porzione di curva delimitata dalla media e un ordinata espressa in termini di deviazioni standard è costante + = 34.13% della distribuzione +2 = 47.73% della distribuzione +3 = 49.86% della distribuzione DISTRIBUZIONE NORMALE Porzioni della distribuzione comprese tra 1,2,3 deviazioni standard da (in %) 99.73% 95.46% 68.26% Y -3 -2 - + +2 +3 X PSICOMETRIA Corso di laurea in Valutazione e Consulenza clinica (classe 34) DISTRIBUZIONI CAMPIONARIE DISTRIBUZIONI CAMPIONARIE Le distribuzioni campionarie (media, proporzioni, varianza, e qualsiasi altro indicatore) assumono forme simili alle più importanti distribuzioni teoriche di probabilità (normale, t di Student, , F di Fisher, …) delle quali si possono usare le proprietà e i valori tabulati. DISTRIBUZIONE CAMPIONARIA DELLE MEDIE Supponiamo di avere una popolazione con media e varianza e supponiamo di estrarre in modo casuale campioni tutti di numerosità n. Si dimostra che calcolando le medie X dei campioni estratti, la distribuzione di tali medie è una 2 normale con media e varianza n ESEMPIO Popolazione (fittizia) di n=3 Punteggi X: 5 7 9 Parametri: = 7 = 2.66 = 1.63 Estraggo con reimmissione tutti i possibili campioni di n = 2 Totale campioni = 2 = 9 D = D = 3 n r 3 2 ESEMPIO Campioni 5-5 5-7 5-9 7-5 7-7 7-9 9-5 9-7 9-9 X 5 6 7 6 7 8 7 8 9 X 5 6 7 8 9 f 1 2 3 2 1 9 Xf 5 12 21 16 9 63 X 2f 25 72 147 128 81 453 X 2 X 453 2 7 1.33 9 2 n 63 9 7 X PROPRIETA’ DELLA DISTRIBUZIONE CAMPIONARIA normale FORMA: per n>30 MEDIA: X 2 VARIANZA: 2 X n DEVIAZIONE STANDARD: X n DISTRIBUZIONE CAMPIONARIA DELLA MEDIA La FORMA dipende dalla n (numerosità dei campioni: Media meno precisa n piccolo n=900 n=100 n=10 X X X TEOREMA DEL LIMITE CENTRALE: dCM e Normale Se si estraggono ripetuti campioni di ampiezza n da una popolazione, qualsiasi sia la forma della distribuzione nella popolazione: all’aumentare di n la distribuzione campionaria della media tende ad avvicinarsi alla normale e può essere considerata normale per n 30 DISTRIBUZIONE CAMPIONARIA DELLA MEDIA DISTRIBUZIONE CAMPIONARIA DELLE MEDIE con n>30 DISTRIBUZIONE DI PROBABILITA NORMALE STANDARDIZZATA TRASFORMAZIONE IN z M= media della dCM (= ) M=media da standardizzare z M M n n= ampiezza campionaria M= errore standard della dCM A che serve la z? A che serve l’errore standard? La trasformazione in z, traduce una differenza fra medie dalla metrica originaria (es: peso), in una nuova metrica, in cui la nuova unità di misura corrisponde all’errore standard Possiamo risalire alla probabilità di osservare una discrepanza dalla media dell’entità espressa da z. Infatti, la z, segue la distribuzione normale di probabilità Rispetto alle differenze fra medie nella metrica originaria, la z ci aiuta a capire quanto è importante in termini probabilistici la differenza osservata. Questo perché l’errore standard è un’unità di misura delle differenze più interessante rispetto alle unità di misura originarie. L’errore standard rappresenta l’errore medio della stima che noi effettuiamo calcolando la media campionaria Una differenza grande svariate volte l’errore medio della stima, è un evento poco probabile, e tutto ciò che è poco probabile è in genere molto informativo. RIASSUMENDO… La dCM la si ottiene calcolando la media di ciascun campione estratto da una popolazione con una sua distribuzione con e La media della dCM è la media delle medie, la deviazione standard si calcola con gli scarti di ciascuna media campionaria dalla media delle medie La POPOLAZIONE può avere distribuzione: Normale diversa dalla normale non nota Se n>30 la distribuzione delle medie dei campioni da essa estratti è NORMALE, per qualunque distribuzione della variabile. DISTRIBUZIONE CAMPIONARIA DELLA MEDIA: t di Student La POPOLAZIONE può avere distribuzione: Normale diversa dalla normale non nota Se n<30 la distribuzione delle medie dei campioni è del tipo t di Student. Ha le seguenti caratteristiche: INFINITA, SIMMETRICA, UNIMODALE, ASINTOTICA DISTRIBUZIONE t di Student a confronto con la Normale Rispetto alla normale la varianza della distribuzione sarà maggiore Perché n < 30 (campioni piccoli) curva più appiattita e code più lunghe (ad es. la porzione di area compresa tra 1 dalla media sarà minore del 68%) Distribuzione Normale Distribuzione t di Student - + t DISTRIBUZIONE t di Student La forma della distribuzione t varia secondo la dimensione n dei campioni Ciascuna distribuzione t è definita dai parametri , e = gradi di libertà n 1 La t è quindi una Famiglia di distribuzioni legate a il numero di = gradi di libertà (all’aumentare di la distribuzione tende alla normale) Distribuzione Normale Distribuzione t di Student con =30 Distribuzione t di Student con =5 t DISTRIBUZIONE t di Student Come per la normale p( x ) f (t )dt 1 La curva definisce una distribuzione di probabilità Distribuzione di probabilità t definita dall’indicatore: t M M ˆM ˆM s n 1 DISTRIBUZIONE t: RIASSUMENDO DISTRIBUZIONE CAMPIONARIA DELLE MEDIE con n<30 DISTRIBUZIONE DI PROBABILITA’ TRASFORMAZIONE IN Media da standardizzare t Gradi di libertà legati a n = ampiezza campionaria M t t Media della dCM (= ) M s n 1 Errore standard della dCM stimato a partire da s A che serve la t Come la trasformazione in z, la trasformazione in t scala le differenze osservate secondo una nuova unità di misura data dall’errore standard. Attenzione: non confondere la distribuzione t con i punteggi “T”! Questa nuova scala segue una distribuzione nota Quindi possiamo sapere quanto è probabile osservare una data differenza; Se una differenza supera di svariate volte l’errore standard di misura ci troviamo di fronte ad una differenza improbabile, e quindi interessante e informativa Uso della DcM: Intervallo di confidenza Nella stima dei parametri ci interessa scoprire in quale intervallo cadrà la medie della popolazione dalla quale abbiamo estratto un campione. È l’equivalente della “forchetta” che i sondaggisti affiancano ai risultati degli exit poll o delle proiezioni su un campione di seggi Esempio: •Avendo un campione di anziani affetti da tre anni da demenza progressiva e osservando una di 68 al QI, quale sarà la media della popolazione? X IINTERVALLO DI FIDUCIA Sfruttando le proprietà della “normale” 99.73% 95.46% 68.26% Y -3 -2 - + +2 +3 X INTERVALLO DI FIDUCIA Posso affermare che in un campione casuale di n>30 soggetti si avrà una probabilità del 68,26% di ottenere X compreso nell’intervallo X del 95,47% del 99,73% 2 X 3 X INTERVALLO DI FIDUCIA OPPURE posso affermare avendo estratto un campione casuale di n>30 soggetti con media X si avrà una probabilità del 68,26% che la media della popolazione sia compresa nell’intervallo del 95,47% del 99,73% X X 2 X X 3 X X Esercizio 1 Dato un campione di numerosità n = 50 con X 19 e S= 1.8 calcolare l’intervallo di fiducia al 95% per la media della popolazione Facendo riferimento alla distribuzione normale standardizzata e all’area 95% X z95% X X z95% X Esercizio 1 Sostituendo a z95% il valore corrispondente e stimando la deviazione standard con il Campione (stima non distorta) si ottiene s X 1.96 n 1 X s 1.96 n 1 cioè 1.8 19 1.96 49 1.8 19 1.96 49 Esercizio 1 Si può concludere che la media della popolazione sarà compresa tra 18.5 19.5 con una probabilità del 95% Esercizio 2 Utilizzando i dati dell’esempio precedente: X 19 e S= 1.8 Stimare l’intervallo di confidenza per la media della popolazione: 1. con una fiducia del 99% 2. Con una fiducia del 90% La statistica è facile!!! Distribuzioni campionarie della differenza fra le medie Distribuzione campionaria della differenza fra medie Se si estraggono da due popolazioni distribuite normalmente (con medie 1 e 2, varianze 12 e 22 ) un gran numero di campioni indipendenti di ampiezza n1 e n2, e si calcola la differenza tra le loro medie ottengo: DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE (dCDM) La DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE (dCDM) è caratterizzata da: una media ( M1-M2); un errore standard ( M1-M2) Se n1 e n2 sono maggiori di 30, per il Teorema del limite centrale, la dCDM è normale qualsiasi sia la distribuzione delle popolazioni Distribuzione campionaria della differenza fra medie La media della distribuzione campionaria della differenza tra medie è uguale alla differenza delle medie 1 e 2 delle due popolazioni M1 M2 M1 M2 L’errore standard è uguale alla radice quadrata della somma delle varianze 12 e 22 delle due popolazioni fratto le rispettive ampiezze campionarie n1 e n2 M1 M 2 2 1 2 2 n1 n2 Usando questo errore standard possiamo riscalare la differenza osservata fra le due medie in termini di errore standard (trasformazione in z) Distribuzione campionaria della differenza fra medie Se 12 e 22 non sono note occorre stimarle a partire da s12 e s22 Stima dell’errore standard VARIANZE STIMATE DELLA POPOLAZIONE ˆ 2 1 n1 n1 1 ˆ M1 ˆ 2 1 s s12 M2 2 2 n2 n2 1 s22 n1 1 n2 1 s 2 2 Distribuzione campionaria della differenza fra medie La z rappresenta un caso particolare, più in generale: Se n1 e n2 sono minori di 30 la DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE (dCDM) non è normale Distribuzione t di Student con gradi di libertà: gdl = n1 + n2 - 2 t x1 x 2 ( n1s12 n2 s22 n1 n2 2 1 2 ) n1 n2 n1n2 x1 x2 Riassumendo Le distribuzioni della differenza campionaria delle media sono concettualmente simili alle distribuzioni campionarie delle media. Siccome conosciamo la forma di queste distribuzioni (o sono normali, o sono del tipo t) è possibile calcolare un indicatore delle differenze (o z o t) tramite il quale deriviamo un’indicazione probabilistica dell’entità delle differenze osservate. La z è un caso particolare (distribuzione normale) di un caso più generale (distribuzione t) Ricordiamoci che differenze grandi (grandi z o grandi t) indicano differenze poco probabili. Ora sappiamo tutto ciò che ci serve per affrontare la verifica delle ipotesi. La statistica è facile!!! Altre distribuzioni PSICOMETRIA Corso di laurea in Valutazione e Consulenza clinica (classe 34) DISTRIBUZIONE 2 DISTRIBUZIONE 2 (chi quadro) Data una distribuzione normale standardizzata ( =0; =1) i punti z rappresentati sull’asse delle ascisse possono assumere sia valori negativi che positivi. Si definisce xi 2 1 2 zi 2 2 1 DISTRIBUZIONE 2 Estraendo a caso punti z2 per costituire campioni con n=2 ottengo una distribuzione (campionaria) teorica 2 con =2 (due gradi di libertà, gdl=2) f( 2) =2 [ 2 2= z2 2 ] + z 1 2 DISTRIBUZIONE 2 Estraendo a caso punti z2 per costituire campioni con n=4 ottengo una distribuzione (campionaria) teorica 2 con =4 (gdl=4) f( 2) [ 2= z21+ z22 + z23 + z24] =4 2 DISTRIBUZIONE 2 Si ottiene una famiglia di distribuzioni che variano al variare del parametro (numero degli elementi del campione). In generale: 2 f( 2) i 1 =n 2 z2 [ 2= z21+ z22 + ...+ z2n] DISTRIBUZIONE 2 Funzione continua che va da 0 a (entro il quadrante positivo degli assi cartesiani) La forma dipende da (al crescere dei gradi di libertà tende alla simmetria) Si usa la curva per calcolare la probabilità associata ai valori di 2 (porzioni di area), sapendo che: p(0 2 ) f( 2 )d 0 2 1 GRADI DI LIBERTA’ I gradi di libertà sono dati dal numero di valori liberi di variare entro un’equazione n1+n2 + n3=N con k=3 (n° addendi) Se N non è fisso, tutti gli addendi sono liberi di variare: =k Se N è fisso, tutti gli addendi sono liberi di variare meno uno: = k-1 GRADI DI LIBERTA’ Esempio: n1+ n2 + n3=20 gdl=k-1=3-1=2 Infatti, due sono gli addendi liberi di variare, il terzo è vincolato al totale che deve essere 20 10 + 9 +1 = 20 8 + 3 + 9 = 20 -5 + 8 + 17= 20 Valori liberi di variare = Gradi di libertà Valore fisso =Vincolo Valore vincolato ad N DISTRIBUZIONE 2 Pearson dimostra che considerando una distribuzione di frequenza con fo (frequenze osservate), ft (frequenze teoriche) e k (n° di categorie della distribuzione): k i 1 (fo ft ft )2 2 i 1 [assimilabile] z2 DISTRIBUZIONE 2 Ogni volta si debba confrontare una distribuzione teorica e una osservata si può fare riferimento alla distribuzione teorica di probabilità del 2 Disponendo di una distribuzione di frequenza è possibile usare il 2 per la VERIFICA DELL’IPOTESI (Prevalentemente il 2 si usa quando si hanno variabili su scale non metriche) PSICOMETRIA Corso di laurea in Valutazione e Consulenza clinica (classe 34) DISTRIBUZIONE F di Fisher DISTRIBUZIONE F di Fisher La distribuzione teorica F di Fisher (o Snedecor) è definita dal rapporto tra chi2 indipendenti 2 1 F 1 2 2 2 1 e 2 = gradi di libertà DISTRIBUZIONE F di Fisher Famiglia di distribuzioni che variano al variare dei parametri 1 e 2 f(F) 1=2 e 2=4 1= 2=12 1= 2=4 F DISTRIBUZIONE F di Fisher La forma dipende da 1 e 2 Funzione continua che va da 0 a (entro il quadrante positivo degli assi cartesiani) Si usa la curva per calcolare la probabilità associata ai valori di F (porzioni di area), sapendo che: p(0 F ) f(F)dF 0 1 DISTRIBUZIONE F di Fisher La curva definisce una distribuzione di probabilità Distribuzione F definita dall’indicatore: 2 1 F 1 2 2 2 F 2 1 2 2 2 1 DISTRIBUZIONE F di Fisher Poiché: ŝ1 2 F ŝ2 2 ŝ2 2 2 1 2 1 2 2 1 F 1, 2 2 ŝ12 ŝ22 con ŝ12 ŝ22 2 2 2 1 2 1 n1 1 2 n2 1 DISTRIBUZIONE F di Fisher Se si estraggono da due popolazioni distribuite normalmente (con varianze omogenee 12 = 22 ), campioni indipendenti di ampiezza n1 e n2 , s12 e s22 DISTRIBUZIONE CAMPIONARIA DEL RAPPORTO TRA VARIANZE DISTRIBUZIONE DI PROBABILITA’ F SI CALCOLA F DISTRIBUZIONE F di Fisher Gradi di libertà varianza a numeratore (= varianza stimata maggiore) Fn1 1;n2 1 s12 Ampiezze campioni n1 n1 1 n2 2 s2 n2 1 Gradi di libertà varianza a denominatore (= varianza stimata minore) ŝ1 2 ŝ2 2 Varianze campionarie