Analisi monovariata Lavoro a cura di Sovarino Elisa A.A. 2002-2003 DEFINIZIONE: analisi monovariata studia le distribuzioni di frequenza della variabile oggetto di studio. Fornisce una descrizione completa della variabile, ovvero di come essa è distribuita fra i casi rilevati nel campione. Lo scopo è quello di studiare le variabili prese singolarmente senza metterle in relazione tra loro. ( vedi Corbetta pg 497 ) Costituisce il punto di partenza per l’analisi bivariata e/o multivariata ( studio delle relazioni fra due variabili ( ) studio delle relazioni intercorrenti tra più di due variabili ) La matrice dei dati Per studiare le variabili singolarmente, si fa uso dei dati ricavati dall’incrocio tra riga e colonna ovvero tra casi e variabili, contenuti nella matrice dei dati. Strumento euristico utile VARIABILI Sesso età religione CASI Marco M 20 B Antonia F 24 A Fabio M 54 A Paolo M 31 A Maria F 22 B …. per organizzare il materiale empirico grezzo al fine di analizzarlo con gli strumenti della analisi statistica. A seconda del tipo di variabile variano le procedure di tipo statistico, utilizzate dal ricercatore Le variabili Le Proprietà si dividono in discrete ( se assumono stati discreti finiti, non frazionabili) e continue ( se assumono infiniti stati intermedi in un dato intervallo fra due stati qualsiasi ) Le variabili possono essere classificate in base alle loro caratteristiche logicomatematiche in: 1) Categoriali 2) Ordinali 3) Cardinali (scala nominale ) ( graduatorie ) ( Scala ad intervalli/di rapporti ) Ovvero quando la proprietà da registrare assume stati discreti non ordinabili. Le uniche relazioni che si possono stabilire tra le modalità di una variabile nominale sono uguaglianzadiversità Ovvero quando la proprietà assume stati discreti e ordinabili. Fra le modalità di una variabile ordinale è possibile istaurare relazioni di uguaglianza/ordine. 4) Variabili quasi cardinali Ovvero quando le proprietà sono ottenute mediante un’operazione di misurazione o conteggio. I valori delle variabili fruiscono di un pieno significato numerico. Si effettuano le quattro operazione aritmentiche Sottoinsieme delle variabili cardinali; le proprietà non possono essere ottenute mediante mere operazioni di conteggio, ma tramite il ricorso a tecniche di scaling. ( cfr. Corbetta 106-112 ) Le proprietà dei tre tipi di variabili sono cumulative, queste possono essere viste come tre livelli ordinabili gerarchicamente. Inoltre varia tra loro anche il livello di “informatività”, da cui consegue che le tecniche d’analisi delle variabili a livello inferiore siano applicabili anche alle variabili poste su di un livello superiore. Analisi delle distribuzioni di frequenza Riguardano il modo in cui le modalità della variabile si trovano nel campione Rappresentazioni nelle quali ad ogni valore della variabile, viene associata la frequenza con la quale essa si presenta nei dati analizzati. ( vedi Corbetta pg. 487, 497) TABELLARE: Il ricercatore dovendosi sempre attenere ad un criterio di massima parsimoniosità, presenterà in tabella solo i dati essenziali ( frequenze percentuali ) accompagnate dall’indicazione della base ( N ) del calcolo delle percentuali. GRAFICA: Il ricercatore si serve solitamente di rappresentazioni grafiche per la loro grande efficacia comunicativa, nei confronti di un pubblico che potrebbe avere difficoltà ad interpretare dei numeri. Rappresentazioni grafiche della distribuzione di frequenza Diagramma a barre: Modo più semplice di rappresentazione grafica. Il ricercatore (supponendo di voler costruire un diagramma a barre a colonne), riporterà su un piano cartesiano i valori delle variabili (asse Y) e le relative frequenze ( asse X). Si noti che solo l’asse dove sono collocate le frequenze presenta una misura continua, e ordinata matematicamente; le modalità invece vengono disposte sull’altro asse, seguendo l’ordine arbitrario del ricercatore. Diagramma di composizione: la distribuzione di frequenza viene rappresentata suddividendo l’area di una figura geometrica in parti proporzionali alle varie frequenze.Fanno parte di questa “ famiglia” il diagramma a torta, e il diagramma a barre suddivise ( figura viene divisa in barre di altezza proporzionale alle frequenze delle variabili. ). Istogramma: quando la variabile oggetto di studio è cardinale. La distribuzione di frequenza viene rappresentata su un piano cartesiano, collocando su un asse la variabile ( continua ) suddivisa in classi, e sull’altro le frequenze, innalzando dei rettangoli di area ad esse proporzionate. Poligono di frequenza: quando la variabile oggetto di studio è cardinale. Lo si ottiene congiungendo i punti medi dei lati superiori dei rettangoli di un istogramma con una linea, per avere infine una “ spezzata ”che si approssimerà sempre più ad una curva continua, man mano che le classi di una variabile cardinale si fanno sempre più numerose. ( cfr. Corbetta 515-520 ) Analisi delle distribuzioni di frequenza 2 Il ricercatore, tramite le distribuzioni di frequenza, dà una rappresentazione sintetica di quanto è codificato nella colonna n°…, della matrice. 1) Individua modalità di ciascuna variabile es: SESSO M/F 2) Conta quante volte la modalità si presenta nella distribuzione tabellare della matrice es: M = 16 ; F = 24 Frequenze assolute = viene riportato accanto ad ogni valore della variabile, il numero dei casi che presentano quel valore, senza altro intervento ( semplice conteggio ) Il limite delle frequenze assolute è la loro fortissima dipendenza dal contesto in cui sono state rilevate. Impossibile fare un confronto tra distribuzioni. Frequenze = relative = tramite riferimento ad un totale comune, viene riportato accanto un valore frutto di una proporzione o percentualizzazione. numero casi della “classe” diviso il n° casi totale. Lo scopo è quello di svincolarsi dal n° di persone appartenenti al campione, così da poter estendere la frequenza relativa ad ogni tipo di situazione e confrontare diverse distribuzioni. (cfr. Corbetta pg.487 ) La scrematura dei dati: La prima possibile utilizzazione della distribuzione di frequenza. Ricognizione sui valori per identificare gli eventuali errori a partire da incongruenze logiche ( crf. Corbetta pg. 494-497) controlli di plausibilità Controllare che tutti i valori delle variabili siano plausibili, appartengano cioè al • dei valori previsti dal codice ventaglio •valori mancanti • un certo caso, in una Ad certa variabile viene assegnato “valore mancante” se quel caso è privo di informazione su quella variabile controlli di congruenza Confrontare le distribuzioni di due variabili per far emergere eventuali incongruenze ponderazione Procedura tramite cui si può ricondurre la distribuzione di una data variabile nel campione a quella della popolazione. Con una proporzione viene calcolato il peso dell’ unità campionaria, dato dal rapporto fra frequenza nella popolazione e frequenza nel campione. Si tratta di un operazione da compiersi nella fase precedente l’analisi dei dati; cercando di non alterare in modo eccessivo i dati originari. ( cfr. Corbetta pg. 496, 352-356 ) Misure di tendenza centrale e variabilità Di tutte le caratteristiche di una distribuzione di frequenza due sono le più importanti: misure di tendenza centrale misure di dispersione/variabilità Ci segnalano quella che è la modalità centrale di una distribuzione di frequenza Modalità di una variabile che si presenta nella distribuzione con maggiore frequenza Modalità del caso che occupa il posto di mezzo nella distribuzione ordinata dei casi secondo quella variabile E’ data dalla somma dei valori assunti dalla variabile su tutti i casi divisa per il numero dei casi. Tendenza centrale moda mediana media Tipi di variabili Ci segnalano come si collocano le altre modalità attorno questo centro Diciamo che una variabile nominale ha una Variabilità distribuzione massimamente omogenea quando tutti i casi si presentano con la stessa modalità. Viceversa è massimamente eterogenea se i casi sono equidistribuiti tra le modalità. (cfr. Corbetta pg. categoriale Omogeneità eterogeneità Differenza Ordinale interquartile s.s.m cardinale Varianza Deviazione standard 504) Se dividiamo i casi di una distribuzione in quattro punti di eguale numerosità, i valori che segnano i confini sono detti quartili, e la differenza fra terzo e primo è la c.d. diff. interquartile Tali indici sfruttano tutte le informazioni raccolte su variabili cardinali Annotazioni Moda se la distribuzione presenta due valori elevati che si distaccano dagli altri, la distribuzione prenderà il nome di bimodale. Mediana cumulate (v.6) per poter calcolare la mediana bisogna anzitutto calcolare le percentuali Es: mediana Media Modalità % %cum. elementari 10 10 medie 30 40 diploma 40 80 laurea 15 95 dottorato 5 100 distribuzione cumulata di frequenza: nella quale in corrispondenza di ogni valore della variabile, viene riportata non la sua frequenza ma la somma delle frequenze corrispondenti a quel valore e a tutti quelli inferiori. è uguale alla sommatoria di i che va da 1 ad n per Xi fratto N; si può calcolare solo se la variabile è cardinale; tuttavia vi sono alcune situazioni nelle quali anche se la variabile è cardinale, si preferisce ricorrere alla mediana piuttosto che alla media n ( v. Corbetta pg. 503 ) * Xi i=1 X= Con X indico una generica variabile, con Xi il valore che assume sull’unità iesima, con N il numero totale dei casi N Misure di dispersione o variabilità n S. S. M. Scostamento semplice medio i=1 X – Xi N Modo molto semplice di calcolare la variabilità di una variabile cardinale potrebbe essere costituito dalla media aritmetica degli scarti di ogni singolo valore dalla media. Infatti se calcolo la media delle differenze ( ovvero quanto mi allontano dalla media per ciascuna risposta otterrò un indicatore più o meno fedele di quanto accade nelle popolazione Il valore assoluto è necessario per non considerare il segno e per non incorrere nel 1° teorema fondamentale delle medie ( la media degli scarti dei valori dalla media è sempre uguale a ZERO.) MA per annullare il segno si può in alternativa elevare al quadrato, otteniamo così: n 2 La varianza X – Xi 2 i=1 S= N La deviazione standard : infine estraendo la radice si ottiene il c.d scarto quadratico medio ovvero La deviazione standard risente della grandezza della media della n S= X – Xi i=1 N 2 variabile; per tanto se si vogliono confrontare fra loro le variabilità di distribuzioni aventi medie fortemente diverse, conviene utilizzare un indice di variabilità che ne tenga conto, ovvero il coefficiente di variazione. ( cfr Corbetta pg.510) S Cv = X Quando la variabile è cardinale e consiste in quantità possedute dalle unità d’analisi si può calcolare la concentrazione di questa variabile nelle unità studiate. equidistribuzione vs ammontare complessivo di A è attribuito ad una sola unità Se il suo ammontare complessivo A è distribuito in parti uguali fra N unità, cioè se ogni unità possiede 1/N di A La concentrazione è un modo particolare di guardare alla variabilità: tanto più una variabile è concentrata, tanto più elevata è la variabilità di quella variabile. ( si possono calcolare diversi indici di concentrazione ) Gini: rapporto di concentrazione Si calcolano le proporzioni cumulate dei soggetti e della variabile in esame ( reddito ) Se il “reddito“ fosse equidistribuito queste proporzioni sarebbero uguali, e se riportate su un piano cartesiano sarebbero allineate sulla bisettrice=segmento di equidistribuzione Se non c’è equidistribuzione si darà luogo ad una spezzettata=curva di Lorenz. L’area compresa fra la spezzettata e il segmento di equidistribuzione=area di concentrazione ( cfr. Corbetta pg. 512 ) Indice di distanza e dissimilarità Notevoli sono i vantaggi nel condurre delle analisi sulle righe di una matrice dati, ovvero a partire dai casi: È possibile infatti confrontare due righe della stessa matrice dei dati e calcolare l’indice di somiglianza fra i profili dei due casi tramite il calcolo matematico della distanza Dij = 2 Xi1 - Xj1 + 2 Xi2 - Xj2 + 2 Xin - Xjn NB. È possibile calcolare le distanze fra i casi solo se le variabili sono cardinali ( la formula implica operazioni aritmetiche fra i valori delle variabili. ) Se le variabili sono nominali si può procedere tuttavia in maniera simile, ovvero trasformando le variabili nominali in tante variabili dicotomiche 0/1. Diverse e utili applicazioni Es: i casi possono essere rrappresentati da aggregati territotiali, le variabili invece dai risultati territoriali, si possono calcolare le distanze fra le regioni prese a due a due, oppure le distanze di ogni singola regione dalla media nazionale. ( cfr. Corbetta pg. 526) Classificare Per classificazione intendiamo il processo secondo il quale i casi studiati vengono raggruppati in sottoinsiemi ( “ classi ” ) sulla base delle loro similarità. Tramite una specifica procedura ( calcolo degli indici di similarità/dissimilarità fra due distribuzioni di frequenza ) otteniamo un unico numero, in cui sono sintetizzate le differenze esistenti fra due distribuzioni di frequenza della stessa variabile. Le classi presentano 3 fondamentali requisiti. Devono essere: Esaustive tutti i casi devono trovare collocazione in una classe, nessuno può esserne escluso. Mutualmente esclusive un caso può appartenere ad una sola classe. Garanti dell’ unicità del fundamentum divisionis il criterio rispetto al quale facciamo le distinzioni ovvero rispetto al quale costruiamo le classi deve essere unico. Tipi di classificazione • Classificazione unidimensionale aggregazione delle modalità in classi Più semplice dei processi classificatori; i casi vengono classificati per la loro somiglianza relativamente ad una sola variabile. In questi termini il problema della classificazione si riduce a quello delle modalità delle variabili. Problema già risolto nella fase precedente la rilevazione dei dati e nella fase di codifica, MA per molte variabili nella fase di analisi dei dati deve essere perfezionata mediante l’operazione di aggregazione di alcune modalità. - - variabile nominale aggregazione fra modalità è necessaria per l’analisi bivariata,la quale necessitaper ogni modalità un numero sufficiente di casi e dunque che le frequenze delle varie modalità siano fra loro wquilibrate Variabile cardinale aggregazione delle modalità consiste in un raggruppamento in classi di maggiore ampiezza ed avviene secondo tre criteri: 1) raggruppamento dei valori della variabile in intervalli di uguale ampiezza 2) raggruppamento dei valori assume a riferimento il loro significato 3) raggruppamento dei valori assume a riferimento la sua distibuzione di frequenza. • Classificazione multidimensionale tipologie e tassonomie I casi possono essere classificati sulla base di più variabili, cosicchè possano essere classificati mettendo in relazione (es) reddito e occupazione Tassonomia: è una classificazione nella quale le variabili che la costituiscono sono considerate in successione gerarchica per variabili di generalità decrescente. Sono molto comuni nelle scienze naturali,e poco in quelle sociali. Tipologia: è una classificazione nella quale le variabili che la compongono sono considerate simultaneamente / congiuntamente. Le classi di una tipologie sono dette tipi. Lo scopo: interpretativo ed esplicativo, finalità euristiche. La tipologia deve essere feconda, deve fornire qualcosa di aggiuntivo rispetto a ciò che ci dice la combinazione delle singole variabili. Esempio di tipologia è quella proposta da BECKER sull’atteggiamento dei genitori nei confronti dei figli. ( cfr. Corbetta pg. 529-534 )