Variabili cardinali DISTRIBUZIONI DI DATI CON VARIABILI CARDINALI Le variabili cardinali si ottengono attraverso: la trasformazione (operata dalla definizione operativa) di proprietà continue Es. altezza il conteggio di proprietà enumerabili Es. numero di figli lo scaling da proprietà continue non misurabili per assenza di unità di analisi Es. autoritarismo. LE SINGOLE CATEGORIE DELLE VARIABILI CARDINALI NON HANNO ALCUNA AUTONOMIA SEMANTICA Diviene, quindi rilevante, l’andamento globale dell’intera distribuzione. E’ comunque possibile ottenere una distribuzione con un numero molto alto di modalità. Prof.ssa Amalia Caputo 1 Variabili cardinali VALORI CARATTERISTICI I valori caratteristici delle distribuzioni di dati con variabili cardinali devono tener conto: delle frequenze di tutte le modalità della distribuzione; del valore “cardinale” delle etichette Per questo motivo si fa ricorso a : a. Valori di tendenza centrale b. Valori di dispersione c. Valori sintetici Prof.ssa Amalia Caputo 2 Variabili cardinali a) VALORI DI TENDENZA CENTRALE Xi X 1. Media 2. Moda Mo = caso con la frequenza più alta 3. Mediana Md = caso che lascia davanti e dietro di se il 50% dei casi 4. Quartili/decili/percentili… 5. Midrange mediana mediana N (valore minimo + valore massimo)/2 < > midrange midrange Prof.ssa Amalia Caputo asimmetria positiva asimmetria negativa 3 Variabili cardinali LA MEDIA PONDERATA Se i dati sono organizzati in una distribuzione di frequenza oppure sono raggruppati in classe le frequenze rappresentano i “pesi” di ciascun valore Xi, quindi per individuare la media è necessario ponderare (pesare) le Xi associate a ciascuna frequenza. In questi casi si parla di media ponderata: x __ x ifi fi n = numero dei valori distinti di Xi fi = frequenza (peso) di ciascun valore Xi Se i dati sono raggruppati in classe, prima di calcolare la media è necessario individuare xi che corrisponde al valore medio (ossia la media dei due valori estremi) di ciascuna classe. Esempio 1 Voti (Xi) 18 25 26 28 29 30 ∑fi Frequenze (fi) 4 11 8 3 6 8 40 Voti riportati da 40 studenti all’esame di Tecniche di ricerca Calcoliamo la media ponderata: 18 * 4 (25 *11) (26 * 8) (28 * 3) (29 * 6) (30 * 8) = 26,32 40 Esempio 2 val. centrale di classe Voti (Xi) Fr. (fi) 60-69 1 (60+69)/2 = 64,5 70-79 10 (70+79)/2 = 74,5 80-89 15 (80+89)/2 = 84,5 90-100 12 (90+100)/2 = 95 ∑fi 38 Voti riportati all’esame di maturità da.. studenti ripartiti in classi Calcoliamo la media ponderata: (64,5 *1) (74,5 *10) (84,5 *15) (95 *12) 84,7 38 Prof.ssa Amalia Caputo 4 Variabili cardinali b) VALORI DI DISPERSIONE Concetto di dispersione La dispersione indica di quanto i valori di una variabile differiscono dai valori di un'altra. Se ogni valore della variabile fosse uguale all'altro, la dispersione sarebbe minima. Le due distribuzioni rappresentate hanno la stessa media ma dispersioni diverse: la prima è certamente meno dispersa rispetto alla seconda. I valori di dispersione rilevano quanto la distribuzione è dispersa dai valori centrali 1. Scarto xi2 Xi X 2. Scarto Medio Assoluto (SSM) xi N 3. Campo di variazione (Range) Valore massimo – Valore minimo 4. Intervallo di variazione val. min val. max I quartile III quartile 5. Scarto interquartile (Galton) 6. Differenze medie assolute 7. Differenza semplice media 2 ai ah2 n( n 1) i=I caso h=II caso ai ah n(n 1) Prof.ssa Amalia Caputo 5 Variabili cardinali b) VALORI SINTETICI (SOMMA) Sono tutti i valori che si basano sulla media e, più precisamente, sul quadrato degli scarti dalla media xi2 . Un valore per essere sintetico deve: 1.considerare tutte le informazioni della distribuzione 2.essere applicabile a tutte le distribuzioni 3.essere semplice da calcolare 4.non risentire della “particolarità” dei valori della distribuzione 5.non risentire delle possibili trasformazioni della distribuzione 6.variare tra -1 e +1. (Galtung J., 1967, Theory and Methods of Social Resaearch, Allen and Unwin, London. I valori sintetici sono Quattro: 1.devianza 2.varianza 3.scarto tipo 4.coefficiente di variazione Prof.ssa Amalia Caputo 6 Variabili cardinali 1. Devianza dev xi2 xi Xi X E’ influenzato dal N dei casi, all’aumentare di N la dispersione diminuisce Si utilizza per confrontare due distribuzioni con un N simile E’ una grandezza quadratica solo idealmente, in realtà è una sovrapposizione di quadrati E’ espressa in valori assoluti Esempio: X 7 Casi a b c Totale 2. Xi 6 12 3 21 Xi X xi 2 -1 5 -4 0 1 25 16 42 Varianza s2 2 xi N Si utilizza per confrontare distribuzioni con un N significativamente diverso; E’ una grandezza quadratica, idealmente è un quadrato ottenuto dalla media di tutti i quadrati degli scarti E’ espresso in valori assoluti 3. Scarto tipo (scarto quadratico medio, deviazione standard) Prof.ssa Amalia Caputo 7 Variabili cardinali s 2 xi N Si utilizza per confrontare due differenti distruzioni aventi media uguale E’ espresso in valori assoluti E’ una grandezza lineare (graficamente è una linea). 4. Coefficiente di variazione V s/ X Si utilizza per confrontare due distribuzioni con medie molto differenti. Prof.ssa Amalia Caputo 8 Variabili cardinali ESEMPIO: ANALISI MONOVARIATA DELLA VARIABILE CARDINALE “REDDITO” A PARTIRE DAI SINGOLI CASI Xi xi Xi X A € 1.000 -€ 1.364 € 1.861.276 B € 1.800 -€ 564 € 318.418 C € 2.000 -€ 364 € 132.704 D € 2.100 -€ 264 € 69.847 E € 2.300 -€ 64 € 4.133 F € 2.350 -€ 14 € 204 G € 5.000 € 2.636 € 6.946.990 € 16.550 €0 € 9.333.571 Caso ∑ xi 2 N=7 Moda Valore più alto Mediana (N+1)/2 = (7 +1) / 2 = 4° pos. = € 2.100 Midrange (val. max + val. min)/2 val. max - val. min = (5000 + 1000)/2 = € 3.000 = 5000 -1000 = € 4.000 = 16550 / 7 = € 2.364 Range o campo di variazione Media Mediana < Midrange xi / N 2000 < 3000 Asimmetria positiva xi2 Devianza Varianza = € 5.000 s 2 xi 2 = 9333571 / 7 = € 9.333.571 = € 1.333.367 = € 1.155 N Scarto tipo o deviazione standard s xi 2 = s 133367 N Coefficiente di variazione V s/ X = Prof.ssa Amalia Caputo 1333367/ 2364 = 0,488 9 Variabili cardinali VALORI SINTETICI PER DATI RAGGRUPPATI Quando la variabile è cardinale ed il numero dei casi è molto elevato, al fine di rappresentare più agevolmente la distribuzione, è consigliabile raggruppare i dati in classi. Valore centrale della classe = (val. max +val. min)/2 Moda Mediana = Classe con la frequenza più alta = fi dispari = ( fi +1)/2 N pari = ( f i +1)/2 e f i /2 n Media X Xi f i i 1 fi n Devianza dev = x 2i f i i 1 n s2 = Varianza x 2ifi i 1 fi n x 2i f i s Scarto tipo i 1 = fi n x 2if i i 1 Coefficiente di variazione V= fi ___ X Prof.ssa Amalia Caputo 10 Variabili cardinali ESEMPIO DI ANALISI MONOVARIATA DELLA VARIABILE CARDINALE “REDDITO” A PARTIRE DALLE FREQUENZE xi fi fi cum x i fi 170 € 185 € 200 € 205 € ∑ 1 1 1 2 5 1 2 3 5 170 185 200 410 965 __ xi x __ xi x -23 -8 7 12 529 64 49 144 2 2 __ x i x fi 529 64 49 288 930 Midrange (205 + 170)/2 = 193€ Range (205 - 170) = 35€ = 205€ (5 +1)/2 = 200 € 965 5 = 193€ = 930€ = 186€ = 13,64€ Moda Mediana fi dispari = ( fi +1)/2 n Media Devianza X X if i = i 1 fi dev. = n x 2i f i i 1 Varianza s 2 = dev Scarto tipo s Coeff. di variazione V= fi s2 = s ___ = 930 5 = 186 = 13,64 193 X Prof.ssa Amalia Caputo = 0,07 11 Variabili cardinali RAPPRESENTAZIONI GRAFICHE 1.CURVA DI FREQUENZA Si ricorre alla curva di frequenza quando il numero dei valori è elevato; sull'ascissa si collocano i valori delle modalità e in ordinata il numero dei dati che hanno quel valore corrispondente in ascissa. La curva che si ottiene non è né una linea né una curva continua, ma una serie di segmenti allineati che collegano una serie di punti discontinui, ognuno dei quali rappresenta un valore. Infatti: i casi non sono infiniti i valori della variabile non sono infiniti La curva è un insieme di punti limitato e finito. 2. ISTOGRAMMA Si ricorre all’istogramma quando il numero dei valori è limitato e derivano da aggregazioni di stati contigui effettuate mediante operazione operativa o operate successivamente. - Se le classi hanno uguale ampiezza, le basi dei rettangoli devono essere uguali; - Se le classi hanno ampiezze differenti, le basi devono rispettare tale differenza. Prof.ssa Amalia Caputo 12 Variabili cardinali 6 4 2 1 2 3 4 0 1 2 3 4 0.15 0.30 0 Si ricorre al diagramma a bastoncini quando i valori sono in numero limitato e corrispondono a stati discreti ed enumerabili oppure se sono raggruppati in classi. Dato un sistema di assi cartesiani, sull’ascissa viene indicato il valore (oppure il valore centrale delle classi) e su questi punti vengono disegnate delle linee verticali la cui altezza rappresenta la frequenza assoluta o quella relativa. 0.00 frequenza relativa 0 frequenza assoluta 3. DIAGRAMMA A BASTONCINI 4. POLIGONO DI FREQUENZA Si ricorre al poligono di frequenza (detto anche spezzata di frequenza o diagramma a congiungenti) quando i valori sono in numero elevato. Si costruisce come un diagramma a barre, si segnano poi sull’ascissa i valori rispettando la loro natura cardinale ovvero facendo sì che le distanze fra i punti siano proporzionali alle distanze tra le relative cifre. Si congiungono, infine, i punti in ordinata corrispondenti alle frequenze di ciascun valore in ascissa con dei segmenti. 5. GRAFICO AD ALBERELLO Il grafico ad alberelli - ideata da Alberto Marradi – è l’evoluzione del grafico a barre; questa rappresentazione grafica sintetizza l’informazione fornita dal coefficiente di variazione (V) ovvero la dispersione di una distribuzione normalizzata (rappresentata dallo scarto-tipo, il raggio della chioma), rapportata alla media della variabile (il fusto dell’alberello). _ Fig. A: x s VA 1 VB 1 _ Fig. B: Prof.ssa Amalia Caputo xs 13 Variabili cardinali Prof.ssa Amalia Caputo 14