PSICOMETRIA DI BASE Si occupa della misurazione delle proprietà mentali (atteggiamenti, tratti di personalità, percezioni,…) È l’insieme delle procedure volte alla valutazione della qualità degli strumenti di misura che vengono costruiti. In maniera più generale si occupa delle procedure utili a indagare fenomeni di interesse per la psicologia => strumenti statistici, usati nella ricerca quantitativa/standard Ricerca empirica: [metodo di indagine, si basa sui fatti] insieme delle attività che contribuiscono al progredire della conoscenza scientifica. Operazioni condotte per produrre risposte sulla realtà a partire da domande di conoscenza. La ricerca empirica si articola in quattro punti: 1. progettazione (disegno) della ricerca 2. produzione e organizzazione della base empirica 3. analisi dei dati 4. esposizione dei risultati 1) si passa in rassegna la letteratura sull’argomento, creando un piano della ricerca (analisi bibliografica). Si deve decidere come verrà condotta la ricerca (condiziona la qualità di tutto il lavoro) a. definizione delle unità di ricerca: tipo di elementi, oggetti a cui si interessa la ricerca (concretamente si tratta di decidere che individui, di quale fascia di età, di quale territorio, … faranno parte della ricerca) b. definizione dei costrutti, dei tipi di informazioni che si vuole ottenere dalle unità di ricerca. Un costrutto generale va specificato in modo da poter arrivare a una sua rilevazione empirica ( => costrutti più delimitati, specifici, individuabili empiricamente) c. scegliere il metodo di raccolta delle informazioni, in base all’oggetto di studio (questionario standardizzato, intervista, esperimento, osservazione, …) 2) produzione (meglio che raccolta) delle informazioni. L’evidenza empirica viene prodotta da tutte le scelte che fa il ricercatore. Prodotte le informazioni, devono essere organizzate in una cornice interpretativa. Il modo in cui strutturiamo queste informazioni dipende dalla concreta situazione in cui ci troviamo (per quanto riguarda questionari o esperimenti si una matrice dei dati) 3) analisi delle informazioni, dei dati (inseriti in una matrice), dipende dal tipo di ricerca che si effettua. Procedure formali e impersonali di analisi dei dati (indagini statistiche) se si usano questionari o esperimenti => uso di un programma di analisi dei dati. Evidenza empirica di tipo testuale => analisi svolta dal ricercatore (è necessaria una grande esperienza di ricerca) 4) esporre i risultati della ricerca alla comunità scientifica di appartenenza (articoli scientifici, monografie, tesi di laurea o di dottorato). Va esplicitato l’iter, il disegno della ricerca, vengono esposti i risultati e poi è necessario accordare i propri dati con quelli della bibliografia. È necessario poi indicare i limiti dello studio e i possibili sbocchi per una futura ricerca MATRICE: insieme ordinato di elementi disposti per riga e colonna, viene indicata con una lettera maiuscola dell’alfabeto -> AN,S [A: matrice; N: n° righe, S: n° colonne. N e S indicano il formato della matrice (anche NxS)] elementi della matrice: stessa lettera della matrice ma minuscola la posizione di ogni elemento è indicata dal numero di riga e di colonna posto a pedice AN,S: [ a1,1 a1,2 …. a1,s a2,1 a2,2 …. a2,s …. an,1 an,2 …. an,s ] => matrice il più generica possibile MATRICE DEGENARATA: più righe, ma una sola colonna, vettore colonna V: [v1 v2 … vn] vettore riga (vettore colonna sdraiato) V: [v1 v2 … vn] il tipo di matrice più utilizzato è la MATRICE CASO PER VARIABILE (matrice CxV) variabili casi ID X1 X2 X3 X4 1 2 3 4 ogni variabile costituisce un vettore colonna nella matrice ID: identificativo dei casi (prima colonna) X: variabili (prima riga) CASO: definizione operativa di un’unità di ricerca o di analisi (oggetti a cui si interessa la ricerca, in psicologia parliamo di individui) Si passa dalle unità ai casi attraverso un’ insieme di regole dette DEFINIZIONE OPERATIVA (passaggio dal teorico al concreto) => dalle unità ai casi, dalle proprietà alle variabili PROPRIETA’: informazioni sui casi interessanti per la ricerca (età, sesso, …) Le VARIABILI sono la definizione operativa di proprietà, costituiscono un insieme codificato di informazioni. Passaggio dalle proprietà alle variabili: le proprietà differiscono da individuo a individuo; STATI -> valori diversi che può avere una proprietà nei vari individui => valori che assume una proprietà. Valori che assume una variabile : categorie / livelli / valori Il ricercatore deve decidere quali stati della variabile vuole tenere distinti (in base agli obiettivi della ricerca), definisce così le MODALITA’ DELLE VARIABILI Il ricercatore deve anche decidere con quale codice registra l’informazione (simboli numerici). È necessario assegnare a queste categorie un codice numerico per inserirle nella matrice. La SENSIBILITA’ DI UNA VARIBILE dipende dal numero di suoi valori distinti Si è facilitati per le proprietà che possiedono un’unità di misura (anche se è necessario scegliere l’unità di misura in base a quello che indago); è quindi possibile prevedere delle fasce => unità fisiche Rispetto invece a proprietà mentali (ansia, depressione, intelligenza, …) è necessario trasformare queste proprietà in variabili. Non è possibile misurarle direttamente, è possibile però ricavare degli indizi comportamentali. Esistono diverse prove empiriche per assicurare che le prove raccolte funzionano, rispecchiano le proprietà (WAIS, WISC, ….) -> questi test contengono al loro interno la definizione delle proprietà, corredate da un manuale che indica come combinare gli indizi empirici per ottenere un punteggio (scale) => definizione operativa. A seconda del test che viene usato => variabili diverse Spaccato di matrice CxV -> ricerca sul problema dell’obesità ID 1 2 3 4 5 gen 1 1 2 1 2 istr 2 1 2 3 2 peso 62,5 78,4 56,2 60,0 75,5 5 casi figli 1 0 2 3 3 Genere: 1= maschio; 2= femmina Istruzione: 1= licenza media inf. o titolo inferiore; 2= diploma; 3= laurea o titolo superiore Matrice CxV, detta anche matrice di profilo Codici numerici: il significato anche dello stesso simbolo cambia per variabili diverse ( 1 e 2 hanno significati diversi se nella colonna del genere o in quella dei figli, in un caso si tratta di numeri cardinali, nell’altro ordinali) Quantità discrete: numeri interi (come ad esempio il numero dei figli) Cambiando il tipo di variabile cambia anche il modo in cui vengono analizzate Classificazione più semplice del tipo di variabili: Assegnazione a categorie (ad es. titolo di studio) Categorie ordinate (con un ordine intrinseco) => ordinamento [variabili ordinali] Categorie non ordinate (ad esempio la professione) => classificazione [variabili categoriali] Misurazione -> variabili cardinali Misurazione diretta Misurazione indiretta Conteggio -> variabili cardinali Variabile => definizione operativa di una proprietà; deve avere almeno due valori distinti (se ha un unico valore allora quel vettore è detto COSTANTE) deve autorizzare confronti in colonna (COLUMN CONDITIONAL) => condizionamento di una matrice, se posso confrontare i valori presenti nella colonna MATRICE UN CONDITIONAL: autorizza confronti tra righe e tra colonne MATRICE ROW CONDITIONAL: autorizza confronti all’interno della stessa riga ma non nella stessa colonna, non contengono variabili Analisi statistica: descrizione delle variabili + descrizione dell’andamento congiunto delle variabili => STATISTICA DESCRITTIVA (dati di popolazione), vengono coinvolte tutte le unità di interesse per la ricerca, può essere: monovariata (1 unica variabile) bivariata (2 variabili) multivariata (diverse variabili) in psicologia gli studi su popolazione sono un’eccezione (difficoltà a raggiungere tutte le unità di interesse) => si rilevano variabili su un sottoinsieme della popolazione (campione) universo: popolazione/collettivo -> tutte le possibili unità di interesse campione: sotto insieme di quelle unità sulle quali rileveremo le nostre informazioni su un campione non possiamo fermarci alla descrizione dei dati ottenuti, serve generalizzare i risultati all’intera popolazione. STATISTICA INFERENZIALE -> procedure per fare un’inferenza sulla popolazione a partire dal campione Descrizione delle variabili VARIABILE CATEGORIALE (le categorie rimandano a differenze qualitative) Distribuzione di frequenza (per le variabili categoriali prende il nome di “serie sconnessa di frequenza”) => accostamento per ogni modalità della variabile del numero di volte in cui si è verificata nel collettivo che stiamo esaminando tipicamente viene prodotta sotto forma di tabella I colonna: modalità, categorie della variabile II colonna : frequenze CxV ID Genere 1 2 2 1 3 1 4 1 5 2 Maschi:1 Femmine:2 Distribuzione di frequenza genere n M (1) 4 F (2) 3 totale 7 K=2 N=7 [n= frequenza assoluta; N=numero totale dei casi; K (kappa maiuscola = numero di modalità della variabile; K (kappa minuscola = kappino = indica una generica modalità] La distribuzione di frequenza opera un’elevata sintesi della matrice CxV Tabella generica di frequenze (con X o Y si indica una generica variabile) x m1 m2 mk … mK totale n n1 n2 nk … nK N Kk=1 nk= N sommatoria per kappino che va da 1 a Kappa grande delle frequenze di tutti i casi (la somma delle frequenze restituisce il numero dei casi = N) [ nk= frequenza assoluta della generica k modalità kappino = valore dai cui devo partire K grande = valore a cui devo arrivare Kk=1 nk= n1 + n2 + n3+ .... +nK può essere scomodo confrontare le frequanza assolute => si accosta alla frequenza assoluta altri tipi di frequenze FREQUENZE RELATIVE (f) = fk = nk/N Si tratta di una proporzione , sarà un numero decimale, una porzione della totalità (1) Kk=1 fk=1 FREQUENZE PERCENTUALI (q) = qk = fk x 100 Territorio A Cond. lavoro Dipendente Autonomo Disoccupato totale n 5400 3080 1520 10000 f 0.540 0.308 0.152 1 q 54 38.8 15.2 100 Territorio B Cond. lavoro Dipendente Autonomo Disoccupato totale n 16700 9840 2680 29220 f 0.572 0.337 0.092 1 q 57.2 33.7 9.2 100 f1= 5400/10000= 0.54 q1= 0.54x100 per convenzione si indicano fino a tre cifre decimali e si arrotonda per eccesso nel caso il totale non venga assolutamente 100 (o 1) si può arrotondare togliendo un decimale al numero dal valore più alto FREQUENZE CUMULATE (F): somma delle frequenza fino alla modalità considerata Seriazione di frequenza Con variabili quantitative è necessario raggruppare i dati in classi. Il sistema di classi deve essere esaustivo e mutuamente esclusivo Ogni classe è individuata dai suoi limiti o Classi con intervalli della stessa ampiezza o Classi equi-numerose RAGGRUPPAMENTI IN CLASSI: LIMITI “ VERI “ DI CLASSE: ±0,5 unità di misura(-0.5 al limite inferiore della classe; +0.5 al limite superiore della classe) I limiti veri delle classi si ottengono togliendo 0.5 al limite inferiore della classe e aggiungendo 0.5 al limite superiore RAPPRESENTAZIONI GRAFICHE Diagrammma a barre + Diagramma a torta=> Variabili nominali Istogramma + Spezzata a gradini + Ogiva => variabili almeno ordinali Variabili nominali Diagrammma a barre (con rettangoli distanziati): altezza proporzionale alla frequenza Diagramma circolare (a torta): angolo al centro proporzionale alla frequenza [α= 360° n j/N] per rappresentare la frequenza si può usare un diagramma a barre, ma può indurre a vedere un ordine tra le modalità (siccome è posta su un piano cartesiano). Un altro modo di rappresentare la frequenza è tramite un grafico a torta Questo tipo di rappresentazione (diagramma a barre o a torta) viene usata per le variabili categoriali. Per rappresentare graficamente delle variabili ordinali si utilizzano gli istogrammi. Un istogramma differisce da un diagramma a barre perché in esso i rettangoli sono accostati uno all’altro, senza spazi intermedi per sottolineare la contiguità tra le categorie (hanno un ordine). Anche delle frequenze cumulate è possibile dare una rappresentazione grafica, attraverso una spazzara a gradini (sull’asse delle ascisse vengono indicate le diverse modalità della variabile, sull’asse delle ordinate le frequenze cumulate). OPERATORI MONOVARIATI -> dispositivi che sintetizzano la distribuzione di una variabile in uno scalare. Tre classi di operatori: Operatori che servono a valutare la tendenza centrale Operatori che servono a valutare la dispersione Operatori che servono a valutare la forma Gli operatori di tendenza centrale restituiscono uno scalare che esprime sinteticamente come si è manifestata la proprietà in esame nel collettivo considerato; rappresenta al maglio la distribuzione intera. Deve rispettare il criterio di internalità (valore compreso tra quelli che la variabile assume) Gli operatori di dispersione hanno in compito di restituire uno scalare che informi circa la diversità esistente tra le osservazioni; valutano quanto il valore di tendenza centrale è rappresentativo. Quando le variabili sono cardinali un ulteriore indice usato è quello di forma: operatori che valutano la simmetria o asimmetria della distribuzione e operatori che valutano quanto la distribuzione simmetrica e unimodale è simile a una curva normale. Operatori di tendenza centrale e altri operatori di posizione Moda -> modalità più ricorrente della variabile, anche detta norma (variabili categoriali) Frequenza più elevata (NB: la moda non è la frequenza) La moda indica solo qual è la modalità che presenta la massima “popolarità”, ma non prende in considerazione le restanti modalità. Essa è tanto meno informativa quanto meno la frequenza della categoria modale si discosterà dalla frequenza delle restanti categorie. La moda può essere calcolata anche per variabili ordinali e cardinali In una distribuzione di valori possono esserci più modalità che presentano la frequenza più alta: distribuzione bimodale Mediana -> per le variabili ordinali, calcola in caso che divide esattamente a metà la distribuzione. È necessario: ordinare le modalità in modo crescente , calcolare le frequenze assolute cumulate, osservare in quale modalità cade il soggetto mediano Quando l’ampiezza del collettivo (N) è un numero dispari, la mediana è la modalità a cui appartiene quel caso (caso mediano, CMdn) che divide esattamente a metà la distribuzione Mdn = x(N+1)/2 la mediana è univoca quando N è un numero dispari, quando N è un numero pari abbiamo due casi mediani, rispettivamente il (N/2)-esimo e (N/2+1)-esimo soggetto. se i due valori centrali appartengono a due modalità differenti si parla di modalità mediane. Media aritmetica -> = 1/N ΣNi=1 xi la media si ottiene quindi sommando tutti i valori di X (da 1 a N) e dividendo tale somma per il numero dei casi. La media aritmetica gode di importanti proprietà tra cui: La somma algebrica degli scarti dei valori xi dalla loro media aritmetica è uguale a 0 La somma algebrica dei quadrati degli scarti dei valori xi dalla loro media aritmetica è minima Talvolta al posto della media aritmetica semplice si utilizza la media aritmetica ponderata: ΣNi=1 xi wi dove x1 rappresenta il valore assunto dall’iesimo caso e wi rappresenta il peso ad esso attribuito e N il numero dei casi = ‾‾‾‾‾‾‾‾‾‾‾‾‾ w1 + w2 + …. + wn per calcolare una media su dati raggruppati in classi: dato che = 1/N ΣKk=1 xk nk possiamo scrivere: = ΣKk=1 xk fk nk/N= fk dove xk rappresenta il valore centrale della generica classe k* e nk e fk rispettivamente la sua frequenza assoluta e relativa, mentre K è il numero delle classi *Si calcola il valore centrale della classe: mj = [(limite inf.) + (limite sup.)] / 2 Quantili -> è possibile suddividere una distribuzione in più parti uguali, originando i così detti quantili. Si distinguono per il numero di parti in cui viene suddivisa la distribuzione. I quartili dividono la distribuzione in quattro parti uguali: Ad esempio il I quartile è la modalità della variabile che lascia alla sua sinistra il 25% dei casi e alla sua destra il 75%. Il secondo quartile coincide con la mediana Calcolo dei quartili: Q1= (N + 1) / 4 Q2 = 2(N + 1) / 4 = (N + 1) / 2 Q3 = 3 (N + 1) / 4 La moda si considera come il valore tipico dell'insieme di dati poiché è quello che si presenta più spesso. Non tiene però conto degli altri valori. La mediana è quel valore che divide in due una distribuzione, non è influenzata dai valori estremi eventualmente presenti ma solo dal fatto che essi siano sotto o sopra il centro dell'insieme dei dati La media è generalmente considerata la miglior misura di tendenza centrale, anche se questo è vero solo quando siamo in presenza di variabili che si distribuiscono in modo normale (gaussiano). Infatti la media è maggiormente influenzata dai valori estremi. Interpretazione grafica degli operatori di tendenza centrale: moda: picco della curva mediana: divide a meta’ l’area sottesa dalla curva media: baricentro Operatori di dispersione Producono uno scalare con cui si valuta sinteticamente la diversità esistente tra le osservazioni. Variabili nominali: mutabilità (eterogeneità o omogeneità) Variabili ordinali: variabilità non metrica Variabili cardinali: variabilità metrica Mutabilità -> Data una variabile nominale a K modalità, la minima eterogeneità si ha quando una sola modalità ha frequenza assoluta pari a N La massima eterogeneità si ha quando ciascuna modalità ha la stessa frequenza pari a N/K. Indice di mutabilità del Gini assoluto: E1 = 1- Σk=1Kf2k fk: frequenza relativa di una generica modalità Valore minimo=0 (tutti i casi sono addensati in una sola modalità) Valore massimo=(k-1)/k (tutti i soggetti sono equamente distribuiti nelle k modalità) Gli indici assoluti dipendono dall’unità di misura, mentre gli indici relativi variano all’interno di un intervallo predefinito indipendentemente dall’unità di misura. Gli indici relativi (e) si ottengono attraverso un’operazione detta: normalizzazione o relativizzazione o “ranging”: E - min e: ‾‾‾‾‾‾‾‾ max-min la misura relativa (e) si ottiene sottraendo a quella assoluta (E) il valore minimo che essa può assumere e dividendo il risultato per il suo intervallo di variazione. La nuova misura assumerà valori compresi tra 0 e 1 La misura relativa dell’indice di Gini è: E1 -0 E1 K e1 = ------------ = -------------- = ------- E1 K–1 K–1 K-1 -------- ------k–0 k variabilità metrica -> quando le variabili sono cardinali è possibile individuare molti operatori di dispersione. Due famiglie di operatori: Intervalli di variazione Scarti da un valore centrale Gli intervalli di variazione quantificano la variabilità misurando la diversità tra due particolari termini della distribuzione o Campo di variazione (gamma o range) => W = xmax - xmin Differenza tra il valore massimo e il valore minimo della distribuzione o Differenza interquartile => Wi = Q3 – Q1 Scarti da un valore centrale o SCOSTAMENTO SEMPLICE MEDIO => media aritmetica degli scarti assoluti dalla media Σi=1N |xi - | Sme = --------------N o VARIANZA => Media degli scarti al quadrato dalla media. Si considera la media come “perno” e si fa la somma degli scarti delle osservazioni dalla media. Poiché la somma degli scarti di due valori equidistanti dalla media è 0, gli scarti vengono elevati al quadrato. Σi=1N (xi - )2 S2 = --------------N o DEVIAZIONE STANDARD => È la radice quadrata della varianza. Poiché la varianza è un indice quadratico non direttamente confrontabile con la media. La deviazione standard o scarto quadratico medio è un indice espresso nella stessa unità di misura della variabile. Σi=1N (xi - )2 S = √ --------------N 1 _ Formula abbreviata della varianza: s2 = ---- Σi=1N xi2 - 2 = x2 N Differenza tra la media dei quadrati e il quadrato della media o Devianza => numeratore della varianza Σi=1N (xi - 2 )2 Calcoliamo la varianza e la deviazione standard per la variabile numero di attacchi di panico riportati in una settimana da 8 pazienti ID 1 2 3 4 5 6 7 8 xi 0 3 8 4 5 5 3 2 ID Xi1 0–3,75=-3.75 2 3-3.75=-0.75 3 8-3-75=4.25 4 4-3.75=.25 5 5-3.75=1.25 6 5-3.75=1.25 7 3-3.75=-0.75 8 2-3.75=-1.75 totale 6.28 (Xi- )2 14.0625 0.5625 18.0625 0.0625 1.5625 1.5625 0.5625 3.0625 39.4995 Procedimento: Si calcola la media Si calcolano gli scarti dalla media e si elevano al quadrato Si fa la sommatoria Si divide per N e si ottiene la varianza Si estrae la radice quadrata e si ottiene la deviazione standard Media => (0+3+8+4+5+5+3+2)/ = 3,75 S2 = (39.4995) / 8 = 4.93 DS = 2.22 attacchi di panico Per le variabili cardinali, la rappresentazione grafica di una seriazione di frequenza avviene anch’essa attraverso un istogramma, in cui però la base dei rettangoli è proporzionale all’ampiezza di classe e l’altezza non rappresenta le frequenze, ma la densità di frequenza. In un istogramma => Area del rettangolo è proporzionale alla frequenza di classe fj Altezza è proporzionale alla densità di classe→ dj= fj/aj* Base del rettangolo=(Xj-Xj-1)=aj=ampiezza di classe *La densità di frequenza di una generica modalità è data dal rapporto: d k= nk/ak Dove ak rappresenta l’ampiezza della k-esima classe Quello che viene rappresentato sull’asse delle ordinate è così il numero di osservazioni per ogni sottoclasse di ampiezza unitaria, mentre la frequenza della classe è rappresentata dall’area del rettangolo Quando tutte le classi hanno uguale ampiezza sulla ordinate è indifferente riportare le densità di frequenza o direttamente le frequenze. Talvolta all’istogramma si preferisce la poligonale di frequenze, che può essere ottenuta a partire da un istogramma, congiungendo con una spezzata i valori centrali delle basi superiori di ciascuna classe. Valore centrale della classe si ottiene facendo la semisomma dell’ampiezza di classe: (Lim inf+lim. Sup)/2 Il ricorso alla poligonale è utile quando si devono confrontare le distribuzioni di due o più collettivi riferiti alla medesima variabile. Reddito 6-8 9-11 12-16 17-21 22-30 totale a 2 2 4 4 8 n 650 360 110 60 20 1200 f 0,541 0,300 0,092 0,050 0,017 1 N: 1200 (totale collettivo) K: 5 (n° modalità della variabile) a: ampiezza modalità fk: frequenza bisogna andare a calcolare i limiti veri delle varie modalità, e andare a definire la loro densità Limiti veri 5,5-8,5 8,5-11,5 11,5-16,5 16,5-21,5 21,5-30,5 a 3 3 5 5 9 d 217 120 22 12 2 Valori centrali 7 10 14 19 26 d: densità => n/a Media => (valore frequenza)/N => 9,5 centrale classe x 250 250 200 200 150 150 100 100 50 50 217 0 0 8,511,5 8,511,5 11,516,5 16,521,5 21,530,5 8,511,5 8,511,5 11,516,5 16,521,5 21,530,5 Quando il collettivo è molto ampio e le classi hanno un’ampiezza ridotta la poligonale tende a assumere l’aspetto di una curva continua [-> curva normale o di Gauss] Σk=1N nk (xk - )2 DEVIAZIONE STANDARD per seriazioni di frequenza : S = √ ------------------N Dove: nk = Frequenza associata ad ogni classe Xk = Valore della variabile Σk=1N nk (mk - )2 DEVIAZIONE STANDARD per raggruppamento in classi : S = √ ------------------N Dove: nk = Frequenza associata ad ogni classe mk = Valore centrale della classe COEFFICIENTE DI VARIAZIONE Varianza, deviazione standard, scostamento semplice medio e devianza sono misure assolute, il loro valore dipende dall’unità di misura delle variabili. Per confrontare la variabilità di distribuzioni espresse con diverse unità di misura si può utilizzare il coefficiente di variazione: S CV = --Il coefficiente di variazione è un numero puro (indipendente dall’unità di misura) In genere viene moltiplicato per 100 e si esprime come: la percentuale di variabilità per ogni unità di valore medio. DESCRIZIONE DI UNA VARIABILE CARDINALE Quando il collettivo è molto ampio e le classi hanno un’ampiezza ridotta la poligonale tende a assumere l’aspetto di una curva continua [-> curva normale o di Gauss] Una curva gaussiana è simmetrica rispetto a un valore medio (che corrisponde alla media, alla moda e alla mediana della distribuzione) In una curva di questo tipo media e deviazione standard ci dicono tutto di quel fenomeno perché: intervalli tipici di una distribuzione normale { - 1S < x < + 1S } = 68% circa dei casi della distribuzione { - 2S < x < + 2S } = 95% circa dei casi della distribuzione { - 3S < x < + 3S } = 99% circa dei casi della distribuzione ( +S) e ( -S) => punti di flesso (momento in cui la curva cambia concavità) è quindi utile andare a definire quanto un fenomeno si discosta o meno da una distribuzione normale => calcolo degli INDICI DI FORMA INDICI DI FORMA: Gradi di simmetria / asimmetria γ1 Kurtosi γ2 Indici di simmetria (o di Skeweness): simmetria: Si definisce simmetria di una distribuzione di frequenza, la sua specularità rispetto al proprio asse di simmetria Se le modalità equidistanti dalla media hanno la stessa frequenza, media mediana e moda coincidono. 1. Distribuzione asimmetrica positiva: le osservazioni sono addensate sui valori bassi della distribuzione con una lunga coda sui valori alti della variabile. La media è maggiore della moda e della mediana. ( media>mdn>mo) 2. Distribuzione asimmetrica negativa: le osservazioni sono addensate sui valori alti della distribuzione con una lunga coda sui valori bassi della variabile. La media è minore della mediana. (media<mdn) _ 1/N Σi=1N (xi γ1 )3 = ---------------------------------------- [1/N Σi=1N (xi - )]3/2 )3 ----> μ3 => momento omogeneo centrale di terzo ordine* ------------------------------1/N Σ (xi - = S3 *un momento è il termine generale con cui si definisce una media. Un momento è detto omogeneo se si lavora su un’unica variabile, misto se si lavora su più variabili. Un momento è centrale se si parla di scarti dalla media, è detto rispetto all’origine se indica ei valori grezzi. L’ordine del momento (indicato dall’esponente)indica: - μ1 : tendenza centrale (media) - μ2: varianza μ3: simmetria μ4: curtosi dal momento che x e mantengono il loro segno (sono elevati alla terza), vi saranno scarti al cubo positivi e negativi, che si eliminano perfettamente solo se la distribuzione è simmetrica => distribuzione simmetrica => μ3 = 0 distribuzione asimmetrica positiva => μ3 > 0 distribuzione asimmetrica negativa => μ3 < 0 μ3: costituisce una misura assoluta, dipende dall’unità di misura della distribuzione γ1 una misura di simmetria relativa, non dipende dall’unità di misura => μ3 / S3 se γ1 = 0 => curva simmetrica se γ1 > 1 => curva ragionevolmente simmetrica se γ1 > 2 => curva non ragionevolmente simmetrica Indici di Kurtosi La media di una distribuzione cade nel punto in cui vi è la massima densità. A parità di medie vi possono essere distribuzioni differenti. Distribuzione leptocurtica => più appuntita di una normale Distribuzione platicurtica => più piatta, code più grandi di una normale La curtosi misura quanto una distribuzione è più appuntita di una normale 1/N Σi=1N (xi - )4 -------> μ4 γ2 = ------------------------ -3 (S2)2 se γ2 = 0 => distribuzione mesocurtica (normale) se γ2 > 0 => distribuzione leptocurtica se γ1 < 0 => distribuzione platicurtica SRANDARDIZZAZIONE Serve a trasformare i valori di una distribuzione in un’altra variabile per cui note a priori. Serve a confrontare valori con e S diversi e S sono I valori standardizzati vengono detti punti Z ( o punteggi standardizzat) Data una variabile cardinale con una media e una deviazione standard date, possiamo trasformare i valori in un’altra variabile che avrà media 0 e varianza 1 xi -----> operazione di centratura = traslazione dei valori Zi = ------S --------> uniformazione S2 z = 1 S2z = 1/N Σ zi = 1/N Σ [(zi _ z=0 esempio ID 1 2 3 4 5 6 7 8 xi -2,75 1,25 0,25 3,25 1,25 -0,75 -3,75 1,25 ) / S] = 1/S * 1/N * (xi - ) X 9 13 12 15 13 11 8 13 (xi - )/S -1,27 0,577 0,115 1,501 0,577 -0,346 -1,732 0, 577 = 11,750 S= 2,165 Si va a indicare di quante deviazioni standard il punteggio si discosta dalla media Nel calcolo dei punti Z vi è una trasformazione lineare => Y= mx+a m= fattore moltiplicativo, indica la pendenza della retta a =fattore additivo, indica dove la retta incrocia l’asse delle y Zi = 1/S ((xi - ) 1/S = m /S = a => Zi = mx – a nei test vi è un’alteriore trasformazione lineare dei punti Z (non sono molto comodi per comunicare I risultati di un test). Ad esempio per il calcolo del QI i punti Z vengono moltiplicati per quindici e poi sommati a cento. In alcuni punteggi si usano i punti T, ovvero => Zi*10 + 50 CLASSIFICAZIONE DI STEVENS La misurazione consiste nell’attribuzione di numeri a oggetti seguendo diverse regole. A seconda delle regole otteniamo delle scale di misura differenti. Una variabile o scala di misura è un sistema che mette in corrispondenza gli stati degli oggetti sulle proprietà nel sistema empirico e i numeri reali. Le scale di misura si basano su 3 elementi tra loro interconnessi: Un sistema relazionale empirico (SE) Un sistema relazionale numerico (SN) Una regola di trasformazione (FUNZIONE) che consente di passare dall’uno all’altro (f) Ripasso… Insieme: una collezione di elementi ben definiti che condividono una caratteristica Relazione binaria: dati due insiemi A e B si definisce relazione binaria R ogni scelta di coppie ordinate (a, b) dove a ∈ A e b∈B Dato un insieme A e tutte le relazioni individuate in esso (R1, R2..) si definisce sistema relazionale “A” l’insieme composto da A e da tutte le relazioni Un sistema relazionale può essere: Empirico, se l’insieme A è costituito da elementi empirici (caratteristiche di una persona, comportamenti, osservazioni..ecc) Numerico se l’insieme A è costituito da elementi numerici Relazione di equivalenza Se rispetta le seguenti proprietà: o Riflessiva: ∀ x ∈Α, x ∼ x o Simmetrica: ∀ x,y∈Α, x ∼ y ⇒ y ∼ x o Transitiva: ∀ x,y,z∈Α, x ∼ y, y ∼ z ⇒ x ∼ z Relazione di ordine stretto Se rispetta le seguenti proprietà: o Asimmetrica :∀ x,y∈Α, x < y ⇒/ y < x o Transitiva: ∀ x,y,z∈Α, x < y, y < z ⇒ x < z Relazione di ordine largo Se rispetta le seguenti proprietà: o Riflessiva:∀ x ∈Α, x ≤ x o Asimmetrica :∀ x,y∈Α, x ≤ y ⇒/ y ≤ x o Transitiva: ∀ x,y,z∈Α, x ≤ y, y ≤ z ⇒ x ≤ z Esempio di relazione di equivalenza - Sistema empirico SE {A} Sistema empirico SE {A}={un gruppo di amici} su cui definiamo la relazione R={essere coetaneo di..}, faranno parte di R tutte le coppie di amici accomunate dalla stessa età. - Sistema numerico SN {B} Sia B l’insieme degli interi positivi e S la relazione “di uguaglianza”; β= <B, S> Il sistema empirico α è rappresentato dal sistema numerico β se esiste una funzione di α in β tale che: a R b implica f(a) S f(b) La funzione assegnerà ad a un valore numerico uguale al numero che assegnerà a b SCALA DI MISURA: mette in corrispondenza gli stati della proprietà con i numeri reali, rispettando il criterio di rappresentatività Misurare => Stabilire una relazione funzionale tra un sistema relazionale empirico e un sistema relazionale numerico -> Determinare delle regole ben che consentano di associare a ciascuno dei suoi elementi un numero ben determinato del sistema relazionale numerico Nel nostro esempio: femmina=0; maschio=1 da cui deriva: Francesco=1; Sara=0; Claudia=0 Per cui anche nel sistema numerico viene rispettata la relazione di equivalenza: f(F)≠f(C); f(F) ≠f(S); f(C)=f(S) che diventa 1 ≠0; 0=0. Le relazioni tra i numeri devono riflettere in modo appropriato le relazioni esistenti tra gli oggetti del SRE Per ogni SE possono esserci più rappresentazioni numeriche. Criterio della unicita’ Ad esempio immaginiamo di rilevare il titolo di studio dei 3 soggetti. Modalità della variabile: a: licenza media; b: diploma; c: laurea; La relazione è quella d’ordine: f(c)>f(b)>f(a) Per rappresentare il SE può essere usata qualsiasi terna di numeri che rispetti la relazione d’ordine. Ad es. f { licenza media=1; diploma=5; laurea=10 } f’ {licenza media=6; diploma=30; laurea=60 } dove f’=T(f) la nuova scala è il frutto di una trasformazione dei valori di scala di f, in particolare: f’=T(f)=f*6 Le relazioni tra i numeri devono riflettere in modo appropriato le relazioni esistenti tra gli oggetti del sistema relazionale empirico (es >,< = ≠…). Trasformazione ammissibile: Sia α un SE rappresentato dal SN β; una trasformazione dei valori di scala f ‘(a) =T(f(a)) è detta ammissibile se anche f ‘(a) è una rappresentazione del SE α attraverso il SN β. Le diverse scale di misura sono formalmente definite attraverso le classi di trasformazioni ammissibili, ossia quelle funzioni Φ che consentono di passare da una misura del sistema empirico ad una qualsiasi altra misura dello stesso sistema. Per trasformazione ammissibile si intende l’insieme delle trasformazioni che alterano solo gli aspetti convenzionali di una scala. Stevens distingue 4 tipi di scala in base alle famiglie di trasformazioni ammissibili: Variabili nominali Variabili ordinali Variabili ad intervalli o intervallari Variabili a rapporti o razionali Scala nominale Sistema empirico di tipo classificatorio in cui la realtà può essere suddivisa in categorie distinte e mutuamente escludentesi. Misura consiste nell’attribuire numeri uguali agli elementi della stessa categoria e numeri diversi ad elementi appartenenti a categorie diverse. Il sistema numerico ha la sola proprietà di simbolo. Es. sesso, meccanismi di difesa (negazione, proiezione, sublimazione)… Proprietà della scala nominale: Simmetria (la relazione che esiste tra A e B è la stessa che esiste tra B e A) Transitività (Se A=B e B=C, allora anche A=C) È possibile assegnare dei numeri alle varie classi che hanno la sola proprietà di attributi; non è possibile fare le operazioni aritmetiche. L’unica operazione possibile: classificare gli oggetti in base uguale/diverso Trasformazione delle variabili nominali => La trasformazione ammissibile è quella biunivoca o transcodifica. Vincolo: garantire la possibilità di risalire dal secondo sistema di codici al primo e viceversa Es. scala nominale: variabile gruppo sanguigno Scala ordinale In un sistema empirico ordinabile gli elementi godono della stessa caratteristica ma in quantità o grado diverso, ordinabile rispetto a tale grado. Il sistema numerico rispecchia le stesse caratteristiche del sistema empirico di ordinabilità. Ad uno stesso numero è associata la stessa quantità di caratteristica e i numeri indicano solo una graduatoria. Es. titolo di studio, le risposte ad un item (spesso, raramente, mai), classificazione della gravità di una ferita (lieve, moderata grave, mortale), … Proprietà della scala ordinale Simmetria (se A=B, allora B=A) Asimmetria (se A>B, allora non esiste la relazione B>A) Transitività (se A>B e B>C, allora A>C) Attenzione con questo tipo di scala: non abbiamo informazione sulla grandezza delle differenze tra gli elementi. Trasformazione variabili ordinali => Il secondo tipo di trasformazione è la trasformazione monotona crescente o isotonica. Vincolo: rispettare l’ordine tra i codici Es. Variabile ordinale: titolo di studio. Es trasformazione monotona crescente: elevamento al quadrato (x2) Scala di intervalli Quando nel sistema empirico è possibile stabilire un’unità di misura, allora nel sistema numerico corrispondente è possibile stabilire l’entità delle differenze di intensità della caratteristica. Se A=4, B=6, C=12, D=14, E=18 Allora possiamo dire che (B-A)=(D-C) [6-4=14-12], oppure B-C=3(A-B) [6-12=3(4-6)] Ma non possiamo dire che E(18) possiede un’intensità tripla rispetto a B(6) ◦ Es. scale delle temperature, le scale di atteggiamenti, il QI Proprietà della scala di intervalli Esiste una unità di misura costante lungo tutto l’intervallo della scala Esiste uno “zero” fissato arbitrariamente Esempio la temperatura, i test di intelligenza e molte scale di atteggiamenti Trasformazione scala di intervalli => Nelle scale ad intervalli la trasformazione ammissibile è la trasformazione lineare positiva o trasformazione affine che consiste nella moltiplicazione per una costante positiva e nell’addizione di una costante qualsiasi. y’=my+a con m>0 Vincolo: garantire i rapporti tra le differenze di due valori. Dopo la trasformazione rimane immutata l’uguaglianza tra i rapporti delle differenze Scala razionale o di rapporti Quando nel sistema empirico è possibile identificare, oltre all’unità di misura, anche un elemento di intensità nulla, il sistema viene chiamato additivo. Il sistema numerico godrà di tutte le proprietà dei numeri reali e la regola di trasformazione comprenderà anche l’uguaglianza del rapporto tra due elementi. Es. Peso, età, lunghezza, il tempo di reazione I rapporti tra i valori attribuiti agli elementi rimangono costanti anche cambiando unità di misura Trasformazione scala di rapporti => Il quarto tipo di trasformazione è un caso speciale delle trasformazioni affini, detta trasformazione di similarità e consiste nella moltiplicazione per una costante positiva (dilatazione). y’=my con m>0 Vincolo: garantire tutti rapporti tra i valori. Scala assoluta Deriva dall’operazione di conteggio, in essa nessun elemento è convenzionale e di conseguenza l’unica trasformazione ammissibile è la trasformazione identica: y’=y tale che y’i=y ∀ i Es. il numero di libri letti in un mese, il numero di figli…. STATISTICA IDONEA: Una statistica è idonea per quel livello di scala solo se il suo risultato è invariante per il tipo di trasformazione ammissibile per quel livello di scala Tre tipi di invarianza: Invarianza assoluta (+ forte) Equivarianza o invarianza di riferimento Ortovarianza o invarianza di confronto (più debole) Conclusioni…. Al momento di applicare le tecniche di analisi dei dati non si possono ignorare gli aspetti formali indotti dal sistema metrico adottato e dalle relazioni tra variabili nelle scale di misura. Il perché di questa corrispondenza sta nel concetto di trasformazione ammissibile e nelle difficoltà che sorgono nell’estendere i risultati dell’analisi statistica a diverse trasformazioni di scala dello stesso fenomeno. Si possono distinguere statistiche invarianti rispetto alla trasformazione di scala e quelle che invece portano a risultati differenti se viene cambiata la scala. Significatività di una statistica => Ciascuna scala di misura può essere soggetta ad alcune trasformazioni ammissibili senza alterare le informazioni fornite dalla scala. A seguito delle trasformazioni ammissibili, il valore assunto da una statistica può cambiare oppure restare immutato. Una statistica si dice idonea (“significante”, o “sufficiente”) se e soltanto se, quando i dati sono sottoposti ad una trasformazione ammissibile per quel livello di scala, il suo risultato muta seguendo delle regole precise. Per stabilire se una statistica f() è idonea dobbiamo controllare se il risultato fornito dall’operatore statistico sui dati sottoposti a trasformazione t() – f[t(y)] – è in una specifica relazione con quello prodotto dallo stesso operatore sui dati originali – f(y) –. Diversi tipi di invarianza: invarianza assoluta equivarianza (invarianza di riferimento) ortovarianza (invarianza di confronto) Una statistica si definisce idonea per quel livello di scala se è almeno ortovariante. Una statistica si dice assolutamente invariante se il suo valore numerico non muta come conseguenza delle trasformazioni ammissibili a cui viene sottoposta una scala di misura. Ovvero: f(y) = f[t(y)] Es. Statistica assolutamente invariante per scale ad intervallo: i punti z Consideriamo i punti z di una serie di dati misurati a livello di scala ad intervallo. Esempio la temperatura in gradi Celsius misurata in 7 città italiane x = {2, 4, 6, 8, 10, 12, 14} La trasformazione ammissibile è quella lineare es. y = 32 + 9/5 x che consente di passare dai gradi Celsius ai gradi Fahrenheit y = {35.6, 39.2, 42.8, 46.4, 50, 53.6, 57.2} Calcoliamo i punti Z sia sulla variabile originaria (X=Temperatura in gradi Celsius) che sulla variable trasformata (y=temperatura in gradi Fahrenheit) per verificare se tale statistica è assolutamente invariante I punti Z sono assolutamente invarianti per le scale ad intervallo, perché il valore ottenuto sui dati originali è identico a quello ottenuto sui dati trasformati Equivarianza o invarianza di rifermento Una statistica si dice equivariante quando il suo valore cambia in base alla medesima funzione mediante la quale si passa dal sistema numerico originario a quello trasformato. Ovvero: f[t(y)] = t[f(y)] Es. Statistica equivariante per scale ad intervallo: la media Consideriamo la media di una serie di dati misurati a livello di scala ad intervallo. Esempio la temperatura in gradi Celsius misurata in 7 città italiane x = {2, 4, 6, 8, 10, 12, 14} Sia Y = 32 + 9/5 X la trasformazione lineare positiva che consente di trasformare la temperatura in gradi Fahrenheit, ovvero una trasformazione ammissibile a tale livello di scala. la media è una statistica equivariante La media di Y può essere ottenuta anche applicando la stessa trasformazione alla media di x Orto varianza o invarianza di confronto Siano C1 = {X1 , X2 , …, Xn } e C2 = {Y1 , Y2 , …, Yk } due campioni tratti dalla medesima popolazione. Una statistica si dice ortovariante (o invariante di confronto) se, la statistica st1 calcolata su C1 è uguale alla statistica st2 calcolata su C2 , e questa uguaglianza sussiste anche quando le misure vengano trasformate in base a qualunque trasformazione ammissibile. Ovvero: f[t(y)]=g[f(y),t] Es. Statistica per scale ortovariantead intervallo: la deviazione standard Una statistica si dice ortovariante quando la funzione che consente il passaggio dal risultato della statistica sui dati di partenza al risultato della medesima sui dati trasformati non è la trasformazione ammissibile, ma un’altra trasformazione (g) che ha come parametri quelli della trasformazione ammissibile (t) Consideriamo la deviazione standard di due campioni di dati a livello di scala ad intervalli. Sulle variabili x e y misurate su scale ad intervalli applichiamo la stessa trasformazione ammissibile (lineare) La deviazione standard calcolata sulle variabili trasformate X1 e Y1 può essere ottenuta a partire dalla deviazione standard calcolata sui dati originari applicando ad essa una funzione che ha come parametri quelli della trasformazione originale. In conclusione, la varianza è ortovariante (invariante di confronto) a livello di scala ad intervalli. La varianza non è equivariante (invariante di riferimento) né assolutamente invariante a livello di scala da intervalli. Si può altresì dimostrare come la varianza non sia idonea (“significante”) a livello di scala ordinale. I tre tipi di invarianza non sono indipendenti: invarianza assoluta => invarianza di riferimento => invarianza di confronto Se una statistica è idonea ad un certo livello di scala, inoltre, essa sarà idonea anche ad ogni livello di scala ad esso superiore. Quali statistiche sono idonee ai diversi livelli di scala? Sistema empirico Livello di scala Classificatorio Nominale Trasformazioni ammissibili Corrispondenze biunivoche Statistiche Numero di classi di equivalenza Moda Ordinato Delle differenze Additivo Ordinale Funzioni monotone crescenti in senso stretto Mediana Quantili Intervallo Trasformazioni lineari positive Media Varianza Punti z Similitudini Rapporto dirette Coefficiente di variazione