Appunti di Statistica Sociale. Università Kore di Enna. LE RAPPRESENTAZIONI GRAFICHE DELLE DISTRIBUZIONI DI FREQUENZA Obiettivo Cogliere rapidamente, attraverso le rappresentazioni grafiche più opportune, le informazioni più importanti sull’andamento e/o sulla struttura dei dati osservati. Il grafico deve rispettare la natura e le proprietà della variabile, rispetto alla quale sono ordinate e distribuite le unità statiche. I dati da rappresentare possono presentarsi sotto come una serie, quando la natura del fenomeno studiato è qualitativa, o di una seriazione, quando la natura del fenomeno è quantitativa. Serie Distribuzione di frequenza di unità statistiche (us), secondo un carattere qualitativo, osservato su di una popolazione (o campione). Le serie possono essere: → Territoriali: quando le frequenze delle modalità del fenomeno qualitativo sono classificate per area geografica; → Storiche, o temporali: quando le frequenze delle modalità del fenomeno qualitativo sono riferite ai periodi o agli istanti in cui il fenomeno si è manifestato; → Qualitative in senso stretto: quando sono il risultato della classificazione delle us di un collettivo, secondo le modalità di un fenomeno qualitativo (generando una distribuzione di frequenza). Le serie possono essere ulteriormente classificate in: - Rettilinee: quando le modalità sono ordinabili ed esiste una prima e un’ultima modalità. Es.: un campione di studenti ordinati secondo l’anno di corso; - Cicliche: quando le modalità sono ordinabili, ma non esistono né un minimo, né un massimo naturali. Es.: il numero di matrimoni celebrati nel 1985, ordinati secondo il giorno della settimana; - Sconnesse: quando le modalità non sono ordinabili. Es.: il numero di occupati in Italia al 30.06.05, secondo il settore di attività economica. Seriazione È la distribuzione di frequenza di un collettivo di unità statistiche (u.s.), secondo un carattere quantitativo, osservato su di una popolazione (o campione). Le seriazioni possono essere discrete o continue. Nei paragrafi successivi saranno illustrate le rappresentazioni grafiche più opportune, in relazione alla natura della variabile in esame. Docente: Fabio Aiello. A.A. 2014/15 Appunti di Statistica Sociale. Università Kore di Enna. RAPPRESENTAZIONI GRAFICHE DI VARIABILI QUALITATIVE La natura qualitativa delle modalità (stati) di variabili sconnesse e/o ordinabili rende impossibile il ricorso ad un classico riferimento di assi cartesiani X0Y. La scelta tra le differenti tipologie di rappresentazione grafica per serie sconnesse è funzione della natura del fenomeno da rappresentare e del pubblico a cui la rappresentazione è destinata. La maggior parte delle rappresentazioni grafiche è tale che le frequenze delle modalità della variabile qualitativa sono generalmente rappresentate con aree di figure piane. Le rappresentazioni grafiche più comuni e diffuse sono: i. i grafici a colonne. Si ricorre a due “semiassi”: uno orizzontale, senza unità di misura, né orientamento (se le modalità sono di una variabile mutabile), l’altro verticale, con unità di misura e orientamento. Sul primo asse si dispongono le modalità, o stati, della variabile qualitativa, secondo un ordine prestabilito (variabile sconnessa), o secondo l’ordinamento delle modalità (variabile ordinale). In corrispondenza di ogni modalità si disegna un rettangolo di base unitaria convenzionale, la cui area rappresenta la frequenza di ciascuna modalità. I rettangoli devono essere necessariamente staccati tra loro, a causa della natura almeno sconnessa delle modalità rappresentate. Alla base dei rettangoli viene riportata l’etichetta della modalità a cui si riferisce la frequenza rappresentata (figura 1). L’unica scala di riferimento (con unità di misura e ordine di grandezza) impiegata è quella posta sull’asse verticale, parallelo alle altezze dei rettangoli: essa consente di apprezzare il livello delle frequenze rappresentate. Questo tipo di rappresentazione grafica è anche nota come grafico a barre. Figura 1. Diagramma a barre di un gruppo di studenti, secondo il tipo di maturità posseduta. Distribuzione studenti per tipo di maturità 40 35 30 25 20 15 10 5 te cn ic a e tri al us in d n. te c te c n. C te c om n. m C er c. om m om C n. te c Pr og r er c. . m . so ci op si sc co ie pe d nt ifi ag ca g. ps ic op ed a st ra ag i m cl as si ca le 0 ii. Grafici a nastri. Sono simili ai grafici a barre sopra esposti, ma ruotati di 90°. I rettangoli hanno quindi altezze unitarie e le basi sono di lunghezza numericamente uguale alle rispettive aree. A sinistra di ciascun rettangolo si pone l’etichetta della modalità cui corrisponde la frequenza rappresentata (figura 2). Sotto tutti i nastri è riportata una scala di riferimento orizzontale, sulla quale sono riportati i livelli delle frequenze rappresentate. Docente: Fabio Aiello. A.A. 2014/15 Appunti di Statistica Sociale. Università Kore di Enna. Distribuzione studenti per tipo di maturità tecnica tecn. industriale tecn. Commerc. Progr tecn. Commerc. tecn. Comm. sociopsicopedag. scientifica psicopedag. magistrale classica 0 5 10 15 20 25 30 35 40 Figura 2. Diagramma a nastri di un gruppo di studenti, secondo il tipo di maturità posseduta. iii. Aerogrammi a settori circolari, più comunemente noti come grafici “a torta”. Si ricorre alla superficie di un cerchio, con raggio unitario (r = 1), per rappresentare la frequenza totale (pari a N) delle modalità osservate. Proporzionalmente, la frequenza, nk, di ciascuna delle k modalità viene rappresentata dall’area di un settore circolare. È noto che l’area di un settore circolare è proporzionale al raggio del cerchio e all’angolo al centro, delimitato dai raggi che definiscono il settore; pertanto, fissato r = 1, l’area di ciascun settore è proporzionale soltanto all’angolo la centro. L’ampiezza dell’angolo al centro, definita αk, del settore circolare corrispondente alla frequenza assoluta, nk, o relativa, fk, della k-esima modalità, è determinata dalla proporzione: 360° α k = , N nk da cui si deriva: 360° ∀ k = 1, 2, …, K. N Per determinare le ampiezze degli angoli al centro, per ciascuna delle k modalità osservate, è sufficiente quindi moltiplicare le frequenze di ciascuna modalità per la 360° (figura 3). costante pari a N α k = nk Docente: Fabio Aiello. A.A. 2014/15 Appunti di Statistica Sociale. Università Kore di Enna. Freq. classica magistrale psicopedag. scientifica sociopsicopedag. tecn. Comm. tecn. Commerc. tecn. Commerc. Progr tecn. industriale tecnica Figura 3. Aerogrammi a settori circolari un gruppo di studenti, secondo il tipo di maturità posseduta. RAPPRESENTAZIONI GRAFICHE DI VARIABILI QUANTITATIVE Le rappresentazioni grafiche, qui di seguito illustrate, appartengono alla più ampia famiglia delle tecniche per le analisi esplorative dei dati. Servono a rappresentare particolari caratteristiche e/o andamenti di uno o più fenomeni di interesse, singolarmente presi, e/o ad indagare l’esistenza di relazioni tra più fenomeni congiuntamente considerati. Quando si analizza un fenomeno alla volta, l’obiettivo è rappresentarne la forma della distribuzione osservata su un certo collettivo, per coglierne particolari caratteristiche, facilitandone la descrizione e la sintesi. Data la natura quantitativa dei fenomeni da rappresentare, alcune di queste rappresentazioni grafiche, come vedremo, impiegano un sistema di riferimento di assi cartesiani X0Y, detto dimetrico, perché generalmente dotato di due diverse unità di misura, una per l’asse delle ascisse e una per quello delle ordinate. Tra le tecniche grafiche più in uso, che qui di seguito verranno brevemente illustrate, vi sono il boxplot, il grafico gambo-e-foglia, l’istogramma, il diagramma a bastoncini (o a punti). La rappresentazione grafica di un fenomeno quantitativo è realizzata impiegando la combinazione di coppie di informazioni, quali: 1. le modalità (o le classi) della variabile, xk (xk–a | xk), che vengono generalmente riportate sulle ascisse; 2. le frequenze assolute: nk, riportate in ordinata; 3. le frequenze assolute cumulate: Nk, riportate in ordinata 4. le frequenze relative (o funzione di frequenza): fk = f(xk), riportate in ordinata; n 5. la densità (o funzione di densità): d k = k , riportate in ordinata; ak 6. le frequenze relative cumulate (o funzione di ripartizione): Fk = F(xk), riportate in ordinata Le modalità, o le classi della variabile sono disposte sulle ascisse e sono associate ad una sola tra le altre informazioni che si possono disporre sulle ordinate, così da avere coppie di informazioni. Docente: Fabio Aiello. A.A. 2014/15 Appunti di Statistica Sociale. Università Kore di Enna. IL GRAFICO SCATOLA-E-BAFFI (BOX-PLOT) Il box-plot, anche noto come box and whiskers plot, o diagramma scatola-baffi, è una rappresentazione grafica della distribuzione di una variabile misurata almeno su scala ordinale. In realtà, essa è molto più frequentemente impiegata per la rappresentazione di distribuzioni di variabili quantitative. L’aspetto interessante del box-plot è che esso impiega misure molto semplici sia di tendenza centrale, sia di dispersione e pertanto permette di acquisire simultaneamente informazioni su diversi aspetti della distribuzione di un fenomeno, quali l’intensità, la variabilità e la forma. La rappresentazione mediante box-plot può avvenire sia verticalmente che orizzontalmente e prevede la costruzione di un rettangolo (box, o scatola) diviso in due parti, da cui escono due segmenti (whiskers, o baffi). I due lati più corti del rettangolo sono tracciati in corrispondenza del primo quartile, Q1 (in basso, o a sinistra), e del terzo quartile, Q3 (in alto, o a destra), della distribuzione di frequenza dei dati; inoltre, il rettangolo è attraversato da un terzo segmento, intermedio e parallelo ai due lati, tracciato in corrispondenza del secondo quartile, Q2, ovvero la mediana. L’uso dei quartili garantisce che vengano rappresentati graficamente quattro intervalli della distribuzione di frequenza, ugualmente popolati. Per realizzare un box-plot sono necessari almeno cinque passi (figura 4): 1. disporre i valori da rappresentare su un asse verticale (o orizzontale); 2. disegnare una scatola sopra l’asse scelto, ad es. il verticale, in modo che il lato inferiore sia allineato con il primo quartile, Q1, e quello superiore con il terzo quartile, Q3; 3. dividere la scatola in due parti, con un segmento orizzontale allineato con la mediana, Q2; 4. tracciare una prima linea verticale, chiamata baffo, dal lato inferiore della scatola, fino al punto corrispondente al valore minimo (o altro diversamente scelto) osservato; 5. tracciare un’altra linea verticale, dal lato superiore della scatola fino al punto che risulta allineato con il valore massimo (o altro diversamente scelto) osservato. Figura 4. Box-plot dell’età di un campione. Box Plot (eser 29 g ennaio 2005.sta 10v*66c) 40 38 36 34 32 30 28 26 24 Mediana = 23 25% -75% = (22, 25) Min-M ax = (20, 39) Estremi 22 20 18 età Esistono scelte alternative per rappresentare il box-plot e tutte concordano sui tre quartili per rappresentare il rettangolo, ma differiscono per la lunghezza dei segmenti. Generalmente, per Docente: Fabio Aiello. A.A. 2014/15 Appunti di Statistica Sociale. Università Kore di Enna. determinare la lunghezza dei baffi si impiegano il valore minimo e massimo osservati, ma si possono anche operare scelte diverse, qualora il massimo e/o il minimo assumano dei valori troppo "estremi". In questi casi, i baffi hanno lunghezza data dal “recinto”, e massimo e minimo sono rappresentati da punti sul piano contraddistinti da asterischi (per indicare che sono degli outliers). Comunemente, gli estremi del recinto sono determinati attraverso: 1. particolari quantili, solitamente della forma qα e q1-α, come ad esempio i decili, q0,1 e q0,9; 2. i valori [Q1–1.5⋅(Q3–3Q1)] e [Q3+1.5⋅(Q3–3Q1)]; 3. i valori (5⋅Q1–3⋅Q3)/2 e (5⋅Q3–3⋅Q1)/2, in modo che entrambi i segmenti siano lunghi 1.5 volte la lunghezza del rettangolo. L’esame grafico dei dati attraverso un box-plot fornisce informazioni utili per indagare la dispersione, la concentrazione e l’eventuale asimmetria della distribuzione di dati. LA RAPPRESENTAZIONE GAMBO-E-FOGLIA (STEAM-AND-LEAF) È un’altra tecnica di rappresentazione grafica, utile quando si devono esplorare insiemi composti da un numero contenuto di dati. La rappresentazione gambo-e-foglia è dedicata a misure almeno discrete e fornisce informazioni sul range dei dati, evidenzia la concentrazione delle misure più elevate e mette in luce l’eventuale presenza asimmetria. Un vantaggio di questa rappresentazione grafica è che mantiene l’informazione contenuta nei dati individuali, che si perde ad esempio nel momento in cui si raggruppano i dati, per costruire un istogramma. Inoltre, questo grafico può essere realizzato direttamente durante il processo di rilevazione dei dati, senza che questi siano organizzati in una tabella ordinata. Per costruire un grafico gambo-e-foglia è necessario dividere i dati osservati in due parti: 1. il gambo, costituito da una o più cifre iniziali del valore numerico; 2. la foglia, costituita da una o più delle rimanenti cifre. I valori così suddivisi vengono disposti insieme sullo stesso schema: i gambi formano una colonna ordinata in senso crescente, con il gambo più piccolo all’inizio e il più grande alla fine. Nella colonna sono inseriti tutti i gambi contenuti nel range dei valori, quindi compariranno anche i gambi di quei valori numerici che non sono stati realmente osservati. Le righe del grafico, invece, contengono le foglie, ordinate ed elencate a destra dei rispettivi gambi (figura 5). Quando le foglie sono formate da più di una cifra, tutte le cifre dopo la prima possono essere eliminate. Ad esempio, se i dati presentano cifre decimali, allora, queste saranno omesse dalla rappresentazione. Al termine della procedura i gambi risulteranno separati dalle rispettive foglie da una linea verticale. Figura 5. Grafico gambo-foglia dell’età di un campione. Gambo 1 2 3 4 5 6 Foglia 8899 0111222222333333344444444455556666666666677777777777888888899999999 00000000001111111222223334444456667777788888999 000000111222233344455566777788888899 000112233336 1233 Docente: Fabio Aiello. A.A. 2014/15 Appunti di Statistica Sociale. Università Kore di Enna. Nella figura sopra, i primi quattro valori osservati sono (18, 18, 19, 19), che condividono il gambo (1), ma ciascuno è rappresentato dalla propria foglia. La rappresentazione mostra chiaramente l’asimmetria positiva della distribuzione di dati, con una netta prevalenza dei valori più piccoli. Il grafico gambo-e-foglia fornisce una tabella ordinata dei dati registrati. L’ISTOGRAMMA È la tecnica da impiegare per rappresentare graficamente la forma di una distribuzione di frequenza in classi, di una variabile quantitativa continua. In un sistema di assi cartesiani X0Y, si dispongono in ordine crescente le classi osservate della variabile, ciascuna con ampiezza definita dall’intervallo (xk – xk–a), sull’asse delle ascisse. Sull’asse delle ordinate, invece, si dispongono: - le densità delle classi, dk, necessariamente quando le classi hanno ampiezze, ak, diverse; - oppure, le frequenze assolute, nk, o quelle relative, fk, solo quando le classi hanno uguale ampiezza, a; In generale, l’ampiezza di ciascuna delle k classi è data dalla differenza tra estremo superiore ed inferiore: ak = xk − xk − a e costituisce la base (ak) di un rettangolo che ha per altezza la densità di frequenza, dk, della classe stessa: n dk = k . ak La densità di frequenza, dk, della classe k, esprime quanta parte della frequenza, nk, della classe compete in media ad ogni segmento di ampiezza unitaria, che costituisce la classe k. La densità è quindi una quantità non negativa ed uniformemente distribuita entro ogni classe. L’area totale dell’istogramma rappresenta l’intero ammontare delle osservazioni, N, se si rappresentano le nk, 1, se si rappresentano le fk, ed è ripartita tra i singoli rettangoli, proporzionalmente al numero di casi entro ciascuna classe. L’area di ciascun rettangolo dell’istogramma è pari alla frequenza assoluta (o relativa) della classe corrispondente (figura 6): nk = dk⋅ak. Come è noto, le classi sono intervalli contigui, disgiunti e ordinati, quindi i rettangoli che le rappresentano in un istogramma devono essere necessariamente uniti: dove finisce la base di uno, inizia quella del rettangolo adiacente. È necessario porre molta attenzione alla definizione degli estremi delle classi, in modo che non ci siano salti di valori, che darebbero luogo a rettangoli separati. Docente: Fabio Aiello. A.A. 2014/15 Appunti di Statistica Sociale. Università Kore di Enna. Figura 6. Istogramma dell’età di un campione. IL DIAGRAMMA A BASTONCINI È noto che in presenza di un fenomeno quantitativo discreto i dati siano generalmente organizzati in distribuzioni di frequenza per modalità. In tal caso, la rappresentazione grafica si può pensare come caso degenere dell’istogramma, in cui le basi si riducono ad un punto. Anche in questo caso, si ricorre ad un sistema di assi cartesiani dimetrico, X0Y e, ancora una volta, sull’asse delle ascisse si pongono le modalità xk di X, su quello delle ordinate le frequenza assolute, nk, o quelle relative, fk. Data la natura di X, l’asse delle ascisse possiede un’unità di misura specifica, che serve a determinare le distanze tra le diverse modalità sull’asse. Ogni coppia modalità-frequenza (xk, nk) individua univocamente un punto sul piano, le cui proiezioni sull’asse delle ascisse costituiscono i bastoncini della rappresentazione (figura 7). Osservando la serie di bastoncini si coglie la forma della distribuzione di frequenza. Se non si tracciano le proiezioni, la rappresentazione prende il nome di diagramma a punti. In questo caso, data la natura discreta della variabile, mai congiungere i punti (xk, nk) con delle spezzate, che darebbero l’idea di una continuità inammissibile. Docente: Fabio Aiello. A.A. 2014/15 Appunti di Statistica Sociale. Università Kore di Enna. Figura 7. Diagramma a bastoncini del numero di componenti per famiglia, di un campione di donne. RAPPRESENTAZIONI GRAFICHE DI SERIE STORICHE Nelle serie storiche le intensità dei fenomeni oggetto di studio possono assumente la connotazione di frequenze relative ad istanti o ad intervalli di tempo. In entrambi i casi si ricorre ad un riferimento cartesiano ortogonale X0Y, che pone: 1. sull’asse delle ascisse una corrispondenza biunivoca tra i punti dell’asse e gli istanti di tempo in cui avvengono le rilevazioni delle intensità del fenomeno; 2. sull’asse delle ordinate, invece, le intensità o le frequenze del fenomeno. Si otterranno rappresentazioni grafiche dalla struttura differente, a seconda che la serie storica sia relativa ad un fenomeno di stato o ad un fenomeno di flusso. Vediamole separatamente. RAPPRESENTAZIONE GRAFICA DI UN FENOMENO DI STATO Le intensità o le frequenze del fenomeno collettivo sono riferite a precisi istanti di tempo. Ciascuna coppia di valori (istante di rilevazione, intensità) sarà rappresentata nel sistema di riferimento X0Y per mezzo di un punto. La serie di punti viene poi unita da un linea, per dare l’idea dell’andamento del fenomeno nel tempo (figura 8). In genere, ciascun punto è unito al precedente ed al seguente per mezzo di segmenti, che danno origine ad una spezzata. Tale procedura corrisponde ad una precisa ipotesi (implicitamente assunta): la variazione, incremento o decremento, esibita dall’intensità del fenomeno negli istanti di tempo consecutivi, si realizza in modo costante negli intervalli adiacenti, che compongono l’intero periodo di osservazione. Docente: Fabio Aiello. A.A. 2014/15 Appunti di Statistica Sociale. Università Kore di Enna. Figura 8. Grafico a linee dell’ammontare della Popolazione Italiana in un cinquantennio (step = 10 anni). Popolazione 70 60 50 pop. 40 30 20 10 0 1940 1950 1960 1970 1980 1990 2000 2010 Anno RAPPRESENTAZIONE GRAFICA DI UN FENOMENO DI FLUSSO Le manifestazioni del fenomeno collettivo sono osservate in corrispondenza di determinati intervalli di tempo. La loro rappresentazione è sempre basata su un diagramma cartesiano, ma ora le intensità del fenomeno sono riferite ad intervalli, adiacenti e non sovrapposti, costruiti sull’asse delle ascisse. Quindi, le intensità relative ad un dato intervallo, sono rappresentate da aree di rettangoli con base unitaria convenzionale, poiché generalmente le rilevazioni avvengono ad intervalli di tempo equispaziati. La rappresentazione grafica di un fenomeno di flusso è del tutto analoga a quella di un istogramma, con classi di ampiezza comune e unitaria, poste sull’asse delle ascisse e le intensità del fenomeno poste sull’asse delle ordinate. In questo caso però le aree dei rettangoli coincidono con le rispettive altezze. Non di rado, comunque, serie storiche relative a fenomeni di flusso sono rappresentate da una linea spezzata, che congiunge le intensità riferite ai punti medi degli intervalli di osservazione. Questo si può fare, sotto l’ipotesi di equidistribuzione delle manifestazioni del fenomeno, in ciascun intervallo di osservazione. A questa rappresentazione è lecito ricorrere quando: i. la serie di dati è molto lunga e gli intervalli di tempo troppo brevi; ii. lo scopo principale del grafico è rappresentare l’andamento del fenomeno nel tempo, più che evidenziare l’entità delle sue manifestazioni nei vari periodi di osservazione. ALCUNE REGOLE PER COSTRUIRE CORRETTAMENTE UN GRAFICO Per creare un grafico in maniera corretta completa e comprensibile è opportuno seguire alcune norme elementari: 1. scegliere la rappresentazione grafica opportuna, condizionatamente alla natura del fenomeno oggetto di studio; 2. descrivere correttamente il grafico, assegnando il nome alle quantità poste sui due assi di riferimento; Docente: Fabio Aiello. A.A. 2014/15 Appunti di Statistica Sociale. Università Kore di Enna. 3. introdurre una legenda (con simboli, linee, o colori diversi), per le diverse modalità rappresentate all’interno del grafico, ciò ne può aumentare la chiarezza e la comprensibilità; 4. inserire sempre, nel titolo del grafico, le unità statistiche delle quali si rappresenta la distribuzione secondo la variabile studiata; 5. citare la fonte di provenienza delle informazioni rappresentate. Docente: Fabio Aiello. A.A. 2014/15