psicometria 1 - AppuntiUniTo

annuncio pubblicitario
PSICOMETRIA DI BASE
Si occupa della misurazione delle proprietà mentali (atteggiamenti, tratti di personalità,
percezioni,…)
È l’insieme delle procedure volte alla valutazione della qualità degli strumenti di misura che
vengono costruiti.
In maniera più generale si occupa delle procedure utili a indagare fenomeni di interesse per la
psicologia => strumenti statistici, usati nella ricerca quantitativa/standard
Ricerca empirica: [metodo di indagine, si basa sui fatti] insieme delle attività che contribuiscono al
progredire della conoscenza scientifica. Operazioni condotte per produrre risposte sulla realtà a
partire da domande di conoscenza.
La ricerca empirica si articola in quattro punti:
1. progettazione (disegno) della ricerca
2. produzione e organizzazione della base empirica
3. analisi dei dati
4. esposizione dei risultati
1) si passa in rassegna la letteratura sull’argomento, creando un piano della ricerca (analisi
bibliografica). Si deve decidere come verrà condotta la ricerca (condiziona la qualità di
tutto il lavoro)
a. definizione delle unità di ricerca: tipo di elementi, oggetti a cui si interessa la ricerca
(concretamente si tratta di decidere che individui, di quale fascia di età, di quale
territorio, … faranno parte della ricerca)
b. definizione dei costrutti, dei tipi di informazioni che si vuole ottenere dalle unità di
ricerca. Un costrutto generale va specificato in modo da poter arrivare a una sua
rilevazione empirica ( => costrutti più delimitati, specifici, individuabili
empiricamente)
c. scegliere il metodo di raccolta delle informazioni, in base all’oggetto di studio
(questionario standardizzato, intervista, esperimento, osservazione, …)
2) produzione (meglio che raccolta) delle informazioni. L’evidenza empirica viene prodotta da
tutte le scelte che fa il ricercatore. Prodotte le informazioni, devono essere organizzate in
una cornice interpretativa. Il modo in cui strutturiamo queste informazioni dipende dalla
concreta situazione in cui ci troviamo (per quanto riguarda questionari o esperimenti si una
matrice dei dati)
3) analisi delle informazioni, dei dati (inseriti in una matrice), dipende dal tipo di ricerca che si
effettua. Procedure formali e impersonali di analisi dei dati (indagini statistiche) se si usano
questionari o esperimenti => uso di un programma di analisi dei dati. Evidenza empirica di
tipo testuale => analisi svolta dal ricercatore (è necessaria una grande esperienza di ricerca)
4) esporre i risultati della ricerca alla comunità scientifica di appartenenza (articoli scientifici,
monografie, tesi di laurea o di dottorato). Va esplicitato l’iter, il disegno della ricerca,
vengono esposti i risultati e poi è necessario accordare i propri dati con quelli della
bibliografia. È necessario poi indicare i limiti dello studio e i possibili sbocchi per una futura
ricerca
MATRICE: insieme ordinato di elementi disposti per riga e colonna, viene indicata con una lettera
maiuscola dell’alfabeto -> AN,S
[A: matrice; N: n° righe, S: n° colonne. N e S indicano il formato della matrice (anche NxS)]
elementi della matrice: stessa lettera della matrice ma minuscola
la posizione di ogni elemento è indicata dal numero di riga e di colonna posto a pedice
AN,S: [ a1,1 a1,2 …. a1,s
a2,1 a2,2 …. a2,s
….
an,1 an,2 …. an,s ]
=> matrice il più generica possibile
MATRICE DEGENARATA: più righe, ma una sola colonna,
vettore colonna
V: [v1

v2
…
vn]
 vettore riga (vettore colonna sdraiato)
V: [v1 v2 … vn]
il tipo di matrice più utilizzato è la MATRICE CASO PER VARIABILE (matrice CxV)
variabili
casi
ID X1 X2 X3 X4
1
2
3
4
ogni variabile costituisce un vettore colonna nella matrice
 ID: identificativo dei casi (prima colonna)
 X: variabili (prima riga)
CASO: definizione operativa di un’unità di ricerca o di analisi (oggetti a cui si interessa la ricerca, in
psicologia parliamo di individui)
Si passa dalle unità ai casi attraverso un’ insieme di regole dette DEFINIZIONE OPERATIVA
(passaggio dal teorico al concreto) => dalle unità ai casi, dalle proprietà alle variabili
PROPRIETA’: informazioni sui casi interessanti per la ricerca (età, sesso, …)
Le VARIABILI sono la definizione operativa di proprietà, costituiscono un insieme codificato di
informazioni.
Passaggio dalle proprietà alle variabili: le proprietà differiscono da individuo a individuo; STATI ->
valori diversi che può avere una proprietà nei vari individui => valori che assume una proprietà.
Valori che assume una variabile : categorie / livelli / valori
Il ricercatore deve decidere quali stati della variabile vuole tenere distinti (in base agli obiettivi
della ricerca), definisce così le MODALITA’ DELLE VARIABILI
Il ricercatore deve anche decidere con quale codice registra l’informazione (simboli numerici). È
necessario assegnare a queste categorie un codice numerico per inserirle nella matrice.
La SENSIBILITA’ DI UNA VARIBILE dipende dal numero di suoi valori distinti
Si è facilitati per le proprietà che possiedono un’unità di misura (anche se è necessario scegliere
l’unità di misura in base a quello che indago); è quindi possibile prevedere delle fasce => unità
fisiche
Rispetto invece a proprietà mentali (ansia, depressione, intelligenza, …) è necessario trasformare
queste proprietà in variabili. Non è possibile misurarle direttamente, è possibile però ricavare degli
indizi comportamentali.
Esistono diverse prove empiriche per assicurare che le prove raccolte funzionano, rispecchiano le
proprietà (WAIS, WISC, ….) -> questi test contengono al loro interno la definizione delle proprietà,
corredate da un manuale che indica come combinare gli indizi empirici per ottenere un punteggio
(scale) => definizione operativa.
A seconda del test che viene usato => variabili diverse
Spaccato di matrice CxV -> ricerca sul problema dell’obesità
ID
1
2
3
4
5
gen
1
1
2
1
2
istr
2
1
2
3
2
peso
62,5
78,4
56,2
60,0
75,5
5 casi
figli
1
0
2
3
3
Genere: 1= maschio; 2= femmina
Istruzione: 1= licenza media inf. o titolo inferiore; 2= diploma; 3= laurea o titolo superiore
Matrice CxV, detta anche matrice di profilo
Codici numerici: il significato anche dello stesso simbolo cambia per variabili diverse ( 1 e 2 hanno
significati diversi se nella colonna del genere o in quella dei figli, in un caso si tratta di numeri
cardinali, nell’altro ordinali)
Quantità discrete: numeri interi (come ad esempio il numero dei figli)
Cambiando il tipo di variabile cambia anche il modo in cui vengono analizzate
Classificazione più semplice del tipo di variabili:
 Assegnazione a categorie (ad es. titolo di studio)
 Categorie ordinate (con un ordine intrinseco) => ordinamento [variabili ordinali]
 Categorie non ordinate (ad esempio la professione) => classificazione [variabili categoriali]
 Misurazione -> variabili cardinali
 Misurazione diretta
 Misurazione indiretta
 Conteggio -> variabili cardinali
Variabile =>
 definizione operativa di una proprietà;
 deve avere almeno due valori distinti (se ha un unico valore allora quel vettore è detto
COSTANTE)
 deve autorizzare confronti in colonna (COLUMN CONDITIONAL) => condizionamento di
una matrice, se posso confrontare i valori presenti nella colonna
MATRICE UN CONDITIONAL: autorizza confronti tra righe e tra colonne
MATRICE ROW CONDITIONAL: autorizza confronti all’interno della stessa riga ma non nella stessa
colonna, non contengono variabili
Analisi statistica: descrizione delle variabili + descrizione dell’andamento congiunto delle variabili
=> STATISTICA DESCRITTIVA (dati di popolazione), vengono coinvolte tutte le unità di interesse per
la ricerca, può essere:
 monovariata (1 unica variabile)
 bivariata (2 variabili)
 multivariata (diverse variabili)
in psicologia gli studi su popolazione sono un’eccezione (difficoltà a raggiungere tutte le unità di
interesse) => si rilevano variabili su un sottoinsieme della popolazione (campione)
universo: popolazione/collettivo -> tutte le possibili unità di interesse
campione: sotto insieme di quelle unità sulle quali rileveremo le nostre informazioni
su un campione non possiamo fermarci alla descrizione dei dati ottenuti, serve generalizzare i
risultati all’intera popolazione.
STATISTICA INFERENZIALE -> procedure per fare un’inferenza sulla popolazione a partire dal
campione
Descrizione delle variabili
VARIABILE CATEGORIALE
(le categorie rimandano a differenze qualitative)
Distribuzione di frequenza (per le variabili categoriali prende il nome di “serie sconnessa di
frequenza”)
=> accostamento per ogni modalità della variabile del numero di volte in cui si è verificata nel
collettivo che stiamo esaminando
tipicamente viene prodotta sotto forma di tabella
I colonna: modalità, categorie della variabile
II colonna : frequenze
CxV
ID Genere
1 2
2 1
3 1
4 1
5 2
Maschi:1
Femmine:2
Distribuzione di frequenza
genere n
M (1) 4
F (2)
3
totale 7
K=2
N=7
[n= frequenza assoluta;
N=numero totale dei casi;
K (kappa maiuscola = numero di modalità della variabile;
K (kappa minuscola = kappino = indica una generica modalità]
La distribuzione di frequenza opera un’elevata sintesi della matrice CxV
Tabella generica di frequenze
(con X o Y si indica una generica variabile)
x
m1
m2
mk
…
mK
totale
n
n1
n2
nk
…
nK
N
Kk=1 nk= N
sommatoria per kappino che va da 1 a Kappa grande delle frequenze di tutti i casi (la somma delle
frequenze restituisce il numero dei casi = N)
[ nk= frequenza assoluta della generica k modalità
kappino = valore dai cui devo partire
K grande = valore a cui devo arrivare
Kk=1 nk= n1 + n2 + n3+ .... +nK
può essere scomodo confrontare le frequanza assolute => si accosta alla frequenza assoluta altri
tipi di frequenze
FREQUENZE RELATIVE (f) = fk = nk/N
Si tratta di una proporzione , sarà un numero decimale, una porzione della totalità (1)
 Kk=1 fk=1
FREQUENZE PERCENTUALI (q) = qk = fk x 100
Territorio A
Cond. lavoro
Dipendente
Autonomo
Disoccupato
totale
n
5400
3080
1520
10000
f
0.540
0.308
0.152
1
q
54
38.8
15.2
100
Territorio B
Cond. lavoro
Dipendente
Autonomo
Disoccupato
totale
n
16700
9840
2680
29220
f
0.572
0.337
0.092
1
q
57.2
33.7
9.2
100
f1= 5400/10000= 0.54
q1= 0.54x100
per convenzione si indicano fino a tre cifre decimali e si arrotonda per eccesso
nel caso il totale non venga assolutamente 100 (o 1) si può arrotondare togliendo un decimale al
numero dal valore più alto
FREQUENZE CUMULATE (F): somma delle frequenza fino alla modalità considerata
Seriazione di frequenza
Con variabili quantitative è necessario raggruppare i dati in classi.
 Il sistema di classi deve essere esaustivo e mutuamente esclusivo
 Ogni classe è individuata dai suoi limiti
o Classi con intervalli della stessa ampiezza
o Classi equi-numerose
RAGGRUPPAMENTI IN CLASSI: LIMITI “ VERI “ DI CLASSE: ±0,5 unità di misura(-0.5 al limite
inferiore della classe; +0.5 al limite superiore della classe)
I limiti veri delle classi si ottengono togliendo 0.5 al limite inferiore della classe e aggiungendo 0.5
al limite superiore
RAPPRESENTAZIONI GRAFICHE
Diagrammma a barre + Diagramma a torta=> Variabili nominali
Istogramma + Spezzata a gradini + Ogiva => variabili almeno ordinali
Variabili nominali
Diagrammma a barre (con rettangoli distanziati): altezza proporzionale alla frequenza
Diagramma circolare (a torta): angolo al centro proporzionale alla frequenza [α= 360° n j/N]
per rappresentare la frequenza si può usare un diagramma a barre, ma può indurre a vedere un
ordine tra le modalità (siccome è posta su un piano cartesiano).
Un altro modo di rappresentare la frequenza è tramite un grafico a torta
Questo tipo di rappresentazione (diagramma a barre o a torta) viene usata per le variabili
categoriali.
Per rappresentare graficamente delle variabili ordinali si utilizzano gli istogrammi. Un istogramma
differisce da un diagramma a barre perché in esso i rettangoli sono accostati uno all’altro, senza
spazi intermedi per sottolineare la contiguità tra le categorie (hanno un ordine).
Anche delle frequenze cumulate è possibile dare una rappresentazione grafica, attraverso una
spazzara a gradini (sull’asse delle ascisse vengono indicate le diverse modalità della variabile,
sull’asse delle ordinate le frequenze cumulate).
OPERATORI MONOVARIATI -> dispositivi che sintetizzano la distribuzione di una variabile in uno
scalare. Tre classi di operatori:
 Operatori che servono a valutare la tendenza centrale
 Operatori che servono a valutare la dispersione
 Operatori che servono a valutare la forma
Gli operatori di tendenza centrale restituiscono uno scalare che esprime sinteticamente come si è
manifestata la proprietà in esame nel collettivo considerato; rappresenta al maglio la distribuzione
intera. Deve rispettare il criterio di internalità (valore compreso tra quelli che la variabile assume)
Gli operatori di dispersione hanno in compito di restituire uno scalare che informi circa la diversità
esistente tra le osservazioni; valutano quanto il valore di tendenza centrale è rappresentativo.
Quando le variabili sono cardinali un ulteriore indice usato è quello di forma: operatori che
valutano la simmetria o asimmetria della distribuzione e operatori che valutano quanto la
distribuzione simmetrica e unimodale è simile a una curva normale.

Operatori di tendenza centrale e altri operatori di posizione
Moda -> modalità più ricorrente della variabile, anche detta norma (variabili categoriali)
 Frequenza più elevata (NB: la moda non è la frequenza)
La moda indica solo qual è la modalità che presenta la massima “popolarità”, ma non prende in
considerazione le restanti modalità.
Essa è tanto meno informativa quanto meno la frequenza della categoria modale si discosterà
dalla frequenza delle restanti categorie.
La moda può essere calcolata anche per variabili ordinali e cardinali
In una distribuzione di valori possono esserci più modalità che presentano la frequenza più alta:
distribuzione bimodale
Mediana -> per le variabili ordinali, calcola in caso che divide esattamente a metà la distribuzione.
È necessario: ordinare le modalità in modo crescente , calcolare le frequenze assolute cumulate,
osservare in quale modalità cade il soggetto mediano
Quando l’ampiezza del collettivo (N) è un numero dispari, la mediana è la modalità a cui
appartiene quel caso (caso mediano, CMdn) che divide esattamente a metà la distribuzione
Mdn = x(N+1)/2
la mediana è univoca quando N è un numero dispari, quando N è un numero pari abbiamo due
casi mediani, rispettivamente il (N/2)-esimo e (N/2+1)-esimo soggetto.
se i due valori centrali appartengono a due modalità differenti si parla di modalità mediane.
Media aritmetica -> = 1/N ΣNi=1 xi
la media si ottiene quindi sommando tutti i valori di X (da 1 a N) e dividendo tale somma per il
numero dei casi.
La media aritmetica gode di importanti proprietà tra cui:
 La somma algebrica degli scarti dei valori xi dalla loro media aritmetica è uguale a 0
 La somma algebrica dei quadrati degli scarti dei valori xi dalla loro media aritmetica è
minima
Talvolta al posto della media aritmetica semplice si utilizza la media aritmetica ponderata:
ΣNi=1 xi wi
dove x1 rappresenta il valore assunto dall’iesimo caso e wi rappresenta il peso ad esso
attribuito e N il numero dei casi
= ‾‾‾‾‾‾‾‾‾‾‾‾‾
w1 + w2 + …. + wn
per calcolare una media su dati raggruppati in classi:
dato che
= 1/N ΣKk=1 xk nk
possiamo scrivere:
= ΣKk=1 xk fk
nk/N= fk
dove xk rappresenta il valore centrale della
generica classe k* e nk e fk rispettivamente la
sua frequenza assoluta e relativa, mentre K è
il numero delle classi
*Si calcola il valore centrale della classe: mj = [(limite inf.) + (limite sup.)] / 2
Quantili -> è possibile suddividere una distribuzione in più parti uguali, originando i così detti
quantili. Si distinguono per il numero di parti in cui viene suddivisa la distribuzione.
I quartili dividono la distribuzione in quattro parti uguali: Ad esempio il I quartile è la modalità
della variabile che lascia alla sua sinistra il 25% dei casi e alla sua destra il 75%. Il secondo quartile
coincide con la mediana
Calcolo dei quartili:
 Q1= (N + 1) / 4
 Q2 = 2(N + 1) / 4 = (N + 1) / 2

Q3 = 3 (N + 1) / 4
La moda si considera come il valore tipico dell'insieme di dati poiché è quello che si presenta più
spesso. Non tiene però conto degli altri valori.
La mediana è quel valore che divide in due una distribuzione, non è influenzata dai valori estremi
eventualmente presenti ma solo dal fatto che essi siano sotto o sopra il centro dell'insieme dei
dati
La media è generalmente considerata la miglior misura di tendenza centrale, anche se questo è
vero solo quando siamo in presenza di variabili che si distribuiscono in modo normale (gaussiano).
Infatti la media è maggiormente influenzata dai valori estremi.
Interpretazione grafica degli operatori di tendenza centrale:
moda: picco della curva
mediana: divide a meta’ l’area sottesa dalla curva
media: baricentro

Operatori di dispersione
Producono uno scalare con cui si valuta sinteticamente la diversità esistente tra le osservazioni.
Variabili nominali: mutabilità (eterogeneità o omogeneità)
Variabili ordinali: variabilità non metrica
Variabili cardinali: variabilità metrica
Mutabilità -> Data una variabile nominale a K modalità,
 la minima eterogeneità si ha quando una sola modalità ha frequenza assoluta pari a N
 La massima eterogeneità si ha quando ciascuna modalità ha la stessa frequenza pari a N/K.
Indice di mutabilità del Gini assoluto: E1 = 1- Σk=1Kf2k
fk: frequenza relativa di una generica modalità
Valore minimo=0 (tutti i casi sono addensati in una sola modalità)
Valore massimo=(k-1)/k (tutti i soggetti sono equamente distribuiti nelle k modalità)
Gli indici assoluti dipendono dall’unità di misura, mentre gli indici relativi variano all’interno di un
intervallo predefinito indipendentemente dall’unità di misura.
Gli indici relativi (e) si ottengono attraverso un’operazione detta: normalizzazione o
relativizzazione o “ranging”:
E - min
e: ‾‾‾‾‾‾‾‾
max-min
la misura relativa (e) si ottiene sottraendo a
quella assoluta (E) il valore minimo che essa
può assumere e dividendo il risultato per il
suo intervallo di variazione.
La nuova misura assumerà valori compresi tra 0 e 1
La misura relativa dell’indice di Gini è:
E1 -0
E1
K
e1 = ------------ = -------------- = ------- E1
K–1
K–1
K-1
-------- ------k–0
k
variabilità metrica -> quando le variabili sono cardinali è possibile individuare molti operatori di
dispersione. Due famiglie di operatori:
 Intervalli di variazione
 Scarti da un valore centrale

Gli intervalli di variazione quantificano la variabilità misurando la diversità tra due
particolari termini della distribuzione
o Campo di variazione (gamma o range) => W = xmax - xmin
Differenza tra il valore massimo e il valore minimo della distribuzione
o Differenza interquartile => Wi = Q3 – Q1

Scarti da un valore centrale
o SCOSTAMENTO SEMPLICE MEDIO => media aritmetica degli scarti assoluti dalla
media
Σi=1N |xi - |
Sme = --------------N
o VARIANZA => Media degli scarti al quadrato dalla media. Si considera la media
come “perno” e si fa la somma degli scarti delle osservazioni dalla media. Poiché la
somma degli scarti di due valori equidistanti dalla media è 0, gli scarti vengono
elevati al quadrato.
Σi=1N (xi - )2
S2 = --------------N
o DEVIAZIONE STANDARD => È la radice quadrata della varianza. Poiché la varianza è
un indice quadratico non direttamente confrontabile con la media. La deviazione
standard o scarto quadratico medio è un indice espresso nella stessa unità di
misura della variabile.
Σi=1N (xi - )2
S = √ --------------N
1
_
Formula abbreviata della varianza: s2 = ---- Σi=1N xi2 - 2 = x2 N
Differenza tra la media dei quadrati e il quadrato della media
o Devianza => numeratore della varianza
Σi=1N (xi -
2
)2
Calcoliamo la varianza e la deviazione standard per la variabile numero di attacchi di panico
riportati in una settimana da 8 pazienti
ID
1
2
3
4
5
6
7
8
xi
0
3
8
4
5
5
3
2
ID
Xi1
0–3,75=-3.75
2
3-3.75=-0.75
3
8-3-75=4.25
4
4-3.75=.25
5
5-3.75=1.25
6
5-3.75=1.25
7
3-3.75=-0.75
8
2-3.75=-1.75
totale 6.28
(Xi- )2
14.0625
0.5625
18.0625
0.0625
1.5625
1.5625
0.5625
3.0625
39.4995
Procedimento:
Si calcola la media
Si calcolano gli scarti dalla media e si elevano al quadrato
Si fa la sommatoria
Si divide per N e si ottiene la varianza
Si estrae la radice quadrata e si ottiene la deviazione standard



Media => (0+3+8+4+5+5+3+2)/ = 3,75
S2 = (39.4995) / 8 = 4.93
DS = 2.22 attacchi di panico
Per le variabili cardinali, la rappresentazione grafica di una seriazione di frequenza avviene
anch’essa attraverso un istogramma, in cui però la base dei rettangoli è proporzionale all’ampiezza
di classe e l’altezza non rappresenta le frequenze, ma la densità di frequenza.
In un istogramma =>
 Area del rettangolo è proporzionale alla frequenza di classe fj
 Altezza è proporzionale alla densità di classe→ dj= fj/aj*
 Base del rettangolo=(Xj-Xj-1)=aj=ampiezza di classe
*La densità di frequenza di una generica modalità è data dal rapporto: d k= nk/ak
Dove ak rappresenta l’ampiezza della k-esima classe
Quello che viene rappresentato sull’asse delle ordinate è così il numero di osservazioni per ogni
sottoclasse di ampiezza unitaria, mentre la frequenza della classe è rappresentata dall’area del
rettangolo
Quando tutte le classi hanno uguale ampiezza sulla ordinate è indifferente riportare le densità di
frequenza o direttamente le frequenze.
Talvolta all’istogramma si preferisce la poligonale di frequenze, che può essere ottenuta a partire
da un istogramma, congiungendo con una spezzata i valori centrali delle basi superiori di ciascuna
classe.
Valore centrale della classe si ottiene facendo la semisomma dell’ampiezza di classe: (Lim inf+lim.
Sup)/2
Il ricorso alla poligonale è utile quando si devono confrontare le distribuzioni di due o più collettivi
riferiti alla medesima variabile.
Reddito
6-8
9-11
12-16
17-21
22-30
totale
a
2
2
4
4
8
n
650
360
110
60
20
1200
f
0,541
0,300
0,092
0,050
0,017
1
N: 1200 (totale collettivo)
K: 5 (n° modalità della variabile)
a: ampiezza modalità
fk: frequenza
bisogna andare a calcolare i limiti veri delle varie modalità, e andare a definire la loro densità
Limiti veri
5,5-8,5
8,5-11,5
11,5-16,5
16,5-21,5
21,5-30,5
a
3
3
5
5
9
d
217
120
22
12
2
Valori centrali
7
10
14
19
26
d: densità => n/a
Media => (valore
frequenza)/N => 9,5
centrale
classe
x
250
250
200
200
150
150
100
100
50
50
217
0
0
8,511,5
8,511,5
11,516,5
16,521,5
21,530,5
8,511,5
8,511,5
11,516,5
16,521,5
21,530,5
Quando il collettivo è molto ampio e le classi hanno un’ampiezza ridotta la poligonale tende a
assumere l’aspetto di una curva continua [-> curva normale o di Gauss]
Σk=1N nk (xk - )2
DEVIAZIONE STANDARD per seriazioni di frequenza : S = √ ------------------N
Dove: nk = Frequenza associata ad ogni classe
Xk = Valore della variabile
Σk=1N nk (mk - )2
DEVIAZIONE STANDARD per raggruppamento in classi : S = √ ------------------N
Dove: nk = Frequenza associata ad ogni classe
mk = Valore centrale della classe
COEFFICIENTE DI VARIAZIONE
Varianza, deviazione standard, scostamento semplice medio e devianza sono misure
assolute, il loro valore dipende dall’unità di misura delle variabili.
Per confrontare la variabilità di distribuzioni espresse con diverse unità di misura si può utilizzare il
coefficiente di variazione:
S
CV = --Il coefficiente di variazione è un numero puro (indipendente dall’unità di misura)
In genere viene moltiplicato per 100 e si esprime come: la percentuale di variabilità per ogni unità
di valore medio.
DESCRIZIONE DI UNA VARIABILE CARDINALE
Quando il collettivo è molto ampio e le classi hanno un’ampiezza ridotta la poligonale tende a
assumere l’aspetto di una curva continua [-> curva normale o di Gauss]
Una curva gaussiana è simmetrica rispetto a un valore medio (che corrisponde alla media, alla
moda e alla mediana della distribuzione)
In una curva di questo tipo media e deviazione standard ci dicono tutto di quel fenomeno perché:
intervalli tipici di una distribuzione normale
{
- 1S < x <
+ 1S } = 68% circa dei casi della distribuzione
{
- 2S < x <
+ 2S } = 95% circa dei casi della distribuzione
{
- 3S < x <
+ 3S } = 99% circa dei casi della distribuzione
( +S) e ( -S) => punti di flesso (momento in cui la curva cambia concavità)
è quindi utile andare a definire quanto un fenomeno si discosta o meno da una distribuzione
normale => calcolo degli INDICI DI FORMA
INDICI DI FORMA:
 Gradi di simmetria / asimmetria γ1
 Kurtosi γ2
Indici di simmetria (o di Skeweness):
simmetria: Si definisce simmetria di una distribuzione di frequenza, la sua specularità
rispetto al proprio asse di simmetria
Se le modalità equidistanti dalla media hanno la stessa frequenza, media mediana e moda
coincidono.
1. Distribuzione asimmetrica positiva: le osservazioni sono addensate sui valori bassi della
distribuzione con una lunga coda sui valori alti della variabile.
La media è maggiore della moda e della mediana. ( media>mdn>mo)
2. Distribuzione asimmetrica negativa: le osservazioni sono addensate sui valori alti
della distribuzione con una lunga coda sui valori bassi della variabile. La media è
minore della mediana. (media<mdn)
_
1/N Σi=1N (xi γ1
)3
= ----------------------------------------
[1/N
Σi=1N (xi
-
)]3/2
)3 ----> μ3 => momento omogeneo centrale
di terzo ordine*
------------------------------1/N Σ (xi -
=
S3
*un momento è il termine generale con cui si definisce una media. Un momento è detto
omogeneo se si lavora su un’unica variabile, misto se si lavora su più variabili. Un
momento è centrale se si parla di scarti dalla media, è detto rispetto all’origine se indica ei
valori grezzi. L’ordine del momento (indicato dall’esponente)indica:
- μ1 : tendenza centrale (media)
-
μ2: varianza
μ3: simmetria
μ4: curtosi
dal momento che x e
mantengono il loro segno (sono elevati alla terza), vi saranno
scarti al cubo positivi e negativi, che si eliminano perfettamente solo se la distribuzione è
simmetrica
=>
 distribuzione simmetrica => μ3 = 0
 distribuzione asimmetrica positiva => μ3 > 0
 distribuzione asimmetrica negativa => μ3 < 0
μ3: costituisce una misura assoluta, dipende dall’unità di misura della distribuzione
γ1 una misura di simmetria relativa, non dipende dall’unità di misura => μ3 / S3
 se γ1 = 0 => curva simmetrica
 se γ1 > 1 => curva ragionevolmente simmetrica
 se γ1 > 2 => curva non ragionevolmente simmetrica
Indici di Kurtosi
La media di una distribuzione cade nel punto in cui vi è la massima densità. A parità di
medie vi possono essere distribuzioni differenti.


Distribuzione leptocurtica => più appuntita di una normale
Distribuzione platicurtica => più piatta, code più grandi di una normale
La curtosi misura quanto una distribuzione è più appuntita di una normale
1/N Σi=1N (xi - )4
-------> μ4
γ2 = ------------------------ -3
(S2)2
 se γ2 = 0 => distribuzione mesocurtica (normale)
 se γ2 > 0 => distribuzione leptocurtica
 se γ1 < 0 => distribuzione platicurtica
SRANDARDIZZAZIONE
Serve a trasformare i valori di una distribuzione in un’altra variabile per cui
note a priori. Serve a confrontare valori con
e S diversi
e S sono
I valori standardizzati vengono detti punti Z ( o punteggi standardizzat)
Data una variabile cardinale con una media e una deviazione standard date, possiamo
trasformare i valori in un’altra variabile che avrà media 0 e varianza 1
xi -----> operazione di centratura = traslazione dei valori
Zi = ------S --------> uniformazione
S2 z = 1
S2z = 1/N Σ zi = 1/N Σ [(zi _
z=0
esempio
ID
1
2
3
4
5
6
7
8
xi -2,75
1,25
0,25
3,25
1,25
-0,75
-3,75
1,25
) / S] = 1/S * 1/N * (xi -
)
X
9
13
12
15
13
11
8
13
(xi - )/S
-1,27
0,577
0,115
1,501
0,577
-0,346
-1,732
0, 577
= 11,750
S= 2,165
Si va a indicare di quante deviazioni standard il punteggio si discosta dalla media
Nel calcolo dei punti Z vi è una trasformazione lineare =>
Y= mx+a
m= fattore moltiplicativo, indica la pendenza della retta
a =fattore additivo, indica dove la retta incrocia l’asse delle y
Zi = 1/S ((xi -
)
1/S = m
/S = a
=>
Zi = mx – a
nei test vi è un’alteriore trasformazione lineare dei punti Z (non sono molto comodi per
comunicare I risultati di un test).
Ad esempio per il calcolo del QI i punti Z vengono moltiplicati per quindici e poi sommati a
cento.
In alcuni punteggi si usano i punti T, ovvero => Zi*10 + 50
CLASSIFICAZIONE DI STEVENS
La misurazione consiste nell’attribuzione di numeri a oggetti seguendo diverse regole. A
seconda delle regole otteniamo delle scale di misura differenti. Una variabile o scala di
misura è un sistema che mette in corrispondenza gli stati degli oggetti sulle proprietà nel
sistema empirico e i numeri reali.
Le scale di misura si basano su 3 elementi tra loro interconnessi:
 Un sistema relazionale empirico (SE)
 Un sistema relazionale numerico (SN)
 Una regola di trasformazione (FUNZIONE) che consente di passare dall’uno all’altro
(f)
Ripasso…
 Insieme: una collezione di elementi ben definiti che condividono una caratteristica
 Relazione binaria: dati due insiemi A e B si definisce relazione binaria R ogni scelta
di coppie ordinate (a, b) dove a ∈ A e b∈B
Dato un insieme A e tutte le relazioni individuate in esso (R1, R2..) si definisce sistema
relazionale “A” l’insieme composto da A e da tutte le relazioni
Un sistema relazionale può essere:
 Empirico, se l’insieme A è costituito da elementi empirici (caratteristiche di una
persona, comportamenti, osservazioni..ecc)
 Numerico se l’insieme A è costituito da elementi numerici
Relazione di equivalenza
 Se rispetta le seguenti proprietà:
o Riflessiva: ∀ x ∈Α, x ∼ x
o Simmetrica: ∀ x,y∈Α, x ∼ y ⇒ y ∼ x
o Transitiva: ∀ x,y,z∈Α, x ∼ y, y ∼ z ⇒ x ∼ z
Relazione di ordine stretto
 Se rispetta le seguenti proprietà:
o Asimmetrica :∀ x,y∈Α, x < y ⇒/ y < x
o Transitiva: ∀ x,y,z∈Α, x < y, y < z ⇒ x < z
Relazione di ordine largo
 Se rispetta le seguenti proprietà:
o Riflessiva:∀ x ∈Α, x ≤ x
o Asimmetrica :∀ x,y∈Α, x ≤ y ⇒/ y ≤ x
o Transitiva: ∀ x,y,z∈Α, x ≤ y, y ≤ z ⇒ x ≤ z
Esempio di relazione di equivalenza
- Sistema empirico SE {A}
Sistema empirico SE {A}={un gruppo di amici} su cui definiamo la relazione R={essere
coetaneo di..}, faranno parte di R tutte le coppie di amici accomunate dalla stessa età.
- Sistema numerico SN {B}
Sia B l’insieme degli interi positivi e S la relazione “di uguaglianza”; β= <B, S>
Il sistema empirico α è rappresentato dal sistema numerico β se esiste una funzione di α in
β tale che: a R b implica f(a) S f(b)
La funzione assegnerà ad a un valore numerico uguale al numero che assegnerà a b
SCALA DI MISURA: mette in corrispondenza gli stati della proprietà con i numeri reali,
rispettando il criterio di rappresentatività
Misurare => Stabilire una relazione funzionale tra un sistema relazionale empirico e un
sistema relazionale numerico -> Determinare delle regole ben che consentano di associare
a ciascuno dei suoi elementi un numero ben determinato del sistema relazionale numerico
Nel nostro esempio: femmina=0; maschio=1 da cui deriva: Francesco=1; Sara=0; Claudia=0
Per cui anche nel sistema numerico viene rispettata la relazione di equivalenza: f(F)≠f(C);
f(F) ≠f(S); f(C)=f(S) che diventa 1 ≠0; 0=0. Le relazioni tra i numeri devono riflettere in modo
appropriato le relazioni esistenti tra gli oggetti del SRE
Per ogni SE possono esserci più rappresentazioni numeriche. Criterio della unicita’
Ad esempio immaginiamo di rilevare il titolo di studio dei 3 soggetti. Modalità della
variabile: a: licenza media; b: diploma; c: laurea; La relazione è quella d’ordine:
f(c)>f(b)>f(a) Per rappresentare il SE può essere usata qualsiasi terna di numeri che rispetti
la relazione d’ordine. Ad es. f { licenza media=1; diploma=5; laurea=10 } f’ {licenza
media=6; diploma=30; laurea=60 } dove f’=T(f) la nuova scala è il frutto di una
trasformazione dei valori di scala di f, in particolare: f’=T(f)=f*6
Le relazioni tra i numeri devono riflettere in modo appropriato le relazioni esistenti tra gli
oggetti del sistema relazionale empirico (es >,< = ≠…).
Trasformazione ammissibile:
Sia α un SE rappresentato dal SN β; una trasformazione dei valori di scala f ‘(a) =T(f(a)) è
detta ammissibile se anche f ‘(a) è una rappresentazione del SE α attraverso il SN β.
Le diverse scale di misura sono formalmente definite attraverso le classi di trasformazioni
ammissibili, ossia quelle funzioni Φ che consentono di passare da una misura del sistema
empirico ad una qualsiasi altra misura dello stesso sistema.
Per trasformazione ammissibile si intende l’insieme delle trasformazioni che alterano solo
gli aspetti convenzionali di una scala.
Stevens distingue 4 tipi di scala in base alle famiglie di trasformazioni ammissibili:
 Variabili nominali
 Variabili ordinali
 Variabili ad intervalli o intervallari
 Variabili a rapporti o razionali
Scala nominale
Sistema empirico di tipo classificatorio in cui la realtà può essere suddivisa in categorie
distinte e mutuamente escludentesi.
Misura consiste nell’attribuire numeri uguali agli elementi della stessa categoria e numeri
diversi ad elementi appartenenti a categorie diverse.
Il sistema numerico ha la sola proprietà di simbolo. Es. sesso, meccanismi di difesa
(negazione, proiezione, sublimazione)…
Proprietà della scala nominale:
 Simmetria (la relazione che esiste tra A e B è la stessa che esiste tra B e A)
 Transitività (Se A=B e B=C, allora anche A=C)
 È possibile assegnare dei numeri alle varie classi che hanno la sola proprietà di
attributi; non è possibile fare le operazioni aritmetiche.
 L’unica operazione possibile: classificare gli oggetti in base uguale/diverso
Trasformazione delle variabili nominali => La trasformazione ammissibile è quella
biunivoca o transcodifica.
Vincolo: garantire la possibilità di risalire dal secondo sistema di codici al primo e viceversa
Es. scala nominale: variabile gruppo sanguigno
Scala ordinale
In un sistema empirico ordinabile gli elementi godono della stessa caratteristica ma in
quantità o grado diverso, ordinabile rispetto a tale grado.
Il sistema numerico rispecchia le stesse caratteristiche del sistema empirico di ordinabilità.
Ad uno stesso numero è associata la stessa quantità di caratteristica e i numeri indicano
solo una graduatoria. Es. titolo di studio, le risposte ad un item (spesso, raramente, mai),
classificazione della gravità di una ferita (lieve, moderata grave, mortale), …
Proprietà della scala ordinale
 Simmetria (se A=B, allora B=A)
 Asimmetria (se A>B, allora non esiste la relazione B>A)
 Transitività (se A>B e B>C, allora A>C)
Attenzione con questo tipo di scala: non abbiamo informazione sulla grandezza delle
differenze tra gli elementi.
Trasformazione variabili ordinali => Il secondo tipo di trasformazione è la trasformazione
monotona crescente o isotonica.
Vincolo: rispettare l’ordine tra i codici
Es. Variabile ordinale: titolo di studio. Es trasformazione monotona crescente: elevamento
al quadrato (x2)
Scala di intervalli
Quando nel sistema empirico è possibile stabilire un’unità di misura, allora nel sistema
numerico corrispondente è possibile stabilire l’entità delle differenze di intensità della
caratteristica.
Se A=4, B=6, C=12, D=14, E=18
Allora possiamo dire che (B-A)=(D-C) [6-4=14-12], oppure
B-C=3(A-B) [6-12=3(4-6)]
Ma non possiamo dire che E(18) possiede un’intensità tripla rispetto a B(6)
◦ Es. scale delle temperature, le scale di atteggiamenti, il QI
Proprietà della scala di intervalli
 Esiste una unità di misura costante lungo tutto l’intervallo della scala
 Esiste uno “zero” fissato arbitrariamente
Esempio la temperatura, i test di intelligenza e molte scale di atteggiamenti
Trasformazione scala di intervalli => Nelle scale ad intervalli la trasformazione ammissibile
è la trasformazione lineare positiva o trasformazione affine che consiste nella
moltiplicazione per una costante positiva e nell’addizione di una costante qualsiasi.
y’=my+a con m>0
Vincolo: garantire i rapporti tra le differenze di due valori. Dopo la trasformazione rimane
immutata l’uguaglianza tra i rapporti delle differenze
Scala razionale o di rapporti
Quando nel sistema empirico è possibile identificare, oltre all’unità di misura, anche un
elemento di intensità nulla, il sistema viene chiamato additivo.
Il sistema numerico godrà di tutte le proprietà dei numeri reali e la regola di
trasformazione comprenderà anche l’uguaglianza del rapporto tra due elementi.
Es. Peso, età, lunghezza, il tempo di reazione
I rapporti tra i valori attribuiti agli elementi rimangono costanti anche cambiando unità di
misura
Trasformazione scala di rapporti => Il quarto tipo di trasformazione è un caso speciale delle
trasformazioni affini, detta trasformazione di similarità e consiste nella moltiplicazione per
una costante positiva (dilatazione).
y’=my con m>0
Vincolo: garantire tutti rapporti tra i valori.
Scala assoluta
Deriva dall’operazione di conteggio, in essa nessun elemento è convenzionale e di
conseguenza l’unica trasformazione ammissibile è la trasformazione identica:
y’=y tale che y’i=y ∀ i
Es. il numero di libri letti in un mese, il numero di figli….
STATISTICA IDONEA: Una statistica è idonea per quel livello di scala solo se il suo risultato è
invariante per il tipo di trasformazione ammissibile per quel livello di scala
Tre tipi di invarianza:
 Invarianza assoluta (+ forte)
 Equivarianza o invarianza di riferimento
 Ortovarianza o invarianza di confronto (più debole)
Conclusioni….
Al momento di applicare le tecniche di analisi dei dati non si possono ignorare gli aspetti
formali indotti dal sistema metrico adottato e dalle relazioni tra variabili nelle scale di
misura.
Il perché di questa corrispondenza sta nel concetto di trasformazione ammissibile e nelle
difficoltà che sorgono nell’estendere i risultati dell’analisi statistica a diverse
trasformazioni di scala dello stesso fenomeno.
Si possono distinguere statistiche invarianti rispetto alla trasformazione di scala e quelle
che invece portano a risultati differenti se viene cambiata la scala.
Significatività di una statistica => Ciascuna scala di misura può essere soggetta ad alcune
trasformazioni ammissibili senza alterare le informazioni fornite dalla scala.
A seguito delle trasformazioni ammissibili, il valore assunto da una statistica può cambiare
oppure restare immutato.
Una statistica si dice idonea (“significante”, o “sufficiente”) se e soltanto se, quando i dati
sono sottoposti ad una trasformazione ammissibile per quel livello di scala, il suo risultato
muta seguendo delle regole precise.
Per stabilire se una statistica f() è idonea dobbiamo controllare se il risultato fornito
dall’operatore statistico sui dati sottoposti a trasformazione t() – f[t(y)] – è in una specifica
relazione con quello prodotto dallo stesso operatore sui dati originali – f(y) –.
Diversi tipi di invarianza:



invarianza assoluta
equivarianza (invarianza di riferimento)
ortovarianza (invarianza di confronto)
Una statistica si definisce idonea per quel livello di scala se è almeno ortovariante.
Una statistica si dice assolutamente invariante se il suo valore numerico non muta come
conseguenza delle trasformazioni ammissibili a cui viene sottoposta una scala di misura.
Ovvero: f(y) = f[t(y)]
Es. Statistica assolutamente invariante per scale ad intervallo: i punti z
Consideriamo i punti z di una serie di dati misurati a livello di scala ad intervallo.
Esempio la temperatura in gradi Celsius misurata in 7 città italiane
x = {2, 4, 6, 8, 10, 12, 14}
La trasformazione ammissibile è quella lineare es. y = 32 + 9/5 x
che consente di passare dai gradi Celsius ai gradi Fahrenheit
y = {35.6, 39.2, 42.8, 46.4, 50, 53.6, 57.2}
Calcoliamo i punti Z sia sulla variabile originaria (X=Temperatura in gradi Celsius) che sulla
variable trasformata (y=temperatura in gradi Fahrenheit) per verificare se tale statistica è
assolutamente invariante
I punti Z sono assolutamente invarianti per le scale ad intervallo, perché il valore ottenuto
sui dati originali è identico a quello ottenuto sui dati trasformati
Equivarianza o invarianza di rifermento
Una statistica si dice equivariante quando il suo valore cambia in base alla medesima
funzione mediante la quale si passa dal sistema numerico originario a quello trasformato.
Ovvero: f[t(y)] = t[f(y)]
Es. Statistica equivariante per scale ad intervallo: la media
Consideriamo la media di una serie di dati misurati a livello di scala ad intervallo.
Esempio la temperatura in gradi Celsius misurata in 7 città italiane
x = {2, 4, 6, 8, 10, 12, 14}
Sia Y = 32 + 9/5 X la trasformazione lineare positiva che consente di trasformare la
temperatura in gradi Fahrenheit, ovvero una trasformazione ammissibile a tale livello di
scala.
la media è una statistica equivariante
La media di Y può essere ottenuta anche applicando la stessa trasformazione alla media di
x
Orto varianza o invarianza di confronto
Siano C1 = {X1 , X2 , …, Xn } e C2 = {Y1 , Y2 , …, Yk } due campioni tratti dalla medesima
popolazione.
Una statistica si dice ortovariante (o invariante di confronto) se, la statistica st1 calcolata
su C1 è uguale alla statistica st2 calcolata su C2 , e questa uguaglianza sussiste anche
quando le misure vengano trasformate in base a qualunque trasformazione ammissibile.
Ovvero: f[t(y)]=g[f(y),t]
Es. Statistica per scale ortovariantead intervallo: la deviazione standard
Una statistica si dice ortovariante quando la funzione che consente il passaggio dal
risultato della statistica sui dati di partenza al risultato della medesima sui dati trasformati
non è la trasformazione ammissibile, ma un’altra trasformazione (g) che ha come
parametri quelli della trasformazione ammissibile (t)
Consideriamo la deviazione standard di due campioni di dati a livello di scala ad intervalli.
Sulle variabili x e y misurate su scale ad intervalli applichiamo la stessa trasformazione
ammissibile (lineare)
La deviazione standard calcolata sulle variabili trasformate X1 e Y1 può essere ottenuta a
partire dalla deviazione standard calcolata sui dati originari applicando ad essa una
funzione che ha come parametri quelli della trasformazione originale.
In conclusione, la varianza è ortovariante (invariante di confronto) a livello di scala ad
intervalli.
La varianza non è equivariante (invariante di riferimento) né assolutamente invariante a
livello di scala da intervalli.
Si può altresì dimostrare come la varianza non sia idonea (“significante”) a livello di scala
ordinale.
I tre tipi di invarianza non sono indipendenti:
invarianza assoluta => invarianza di riferimento => invarianza di confronto
Se una statistica è idonea ad un certo livello di scala, inoltre, essa sarà idonea anche ad
ogni livello di scala ad esso superiore.
Quali statistiche sono idonee ai diversi livelli di scala?
Sistema
empirico
Livello
di scala
Classificatorio
Nominale
Trasformazioni
ammissibili
Corrispondenze
biunivoche
Statistiche
Numero di classi
di equivalenza
Moda
Ordinato
Delle
differenze
Additivo
Ordinale
Funzioni monotone
crescenti in senso
stretto
Mediana
Quantili
Intervallo
Trasformazioni
lineari positive
Media
Varianza
Punti z
Similitudini
Rapporto
dirette
Coefficiente di
variazione
Scarica