Appunti di Statistica Sociale. Università Kore di Enna. LE RAPPRESENTAZIONI GRAFICHE DELLE DISTRIBUZIONI DI FREQUENZA Obiettivo: cogliere rapidamente, attraverso le rappresentazioni grafiche più opportune, le informazioni più importanti sull’andamento e/o sulla struttura dei dati osservati. Il grafico deve rispettare e conservare la natura e le proprietà del carattere, rispetto a cui sono ordinate e distribuite le unità statiche. Serie: distribuzione di frequenza, di una Popolazione (o Campione) di unità statistiche (u.s.) secondo un carattere qualitativo. Le serie possono essere di diverso tipo: → Territoriali: quando le frequenze o intensità di un fenomeno collettivo sono classificate per area geografica; → Storiche, o temporali: quando le frequenze, o intensità, del fenomeno sono riferite ai periodi o agli istanti in cui il fenomeno si è manifestato; → Qualitative in senso stretto: quando sono il risultato della classificazione delle u.s. di un collettivo, secondo le modalità di un carattere qualitativo. Queste possono essere ulteriormente classificate in: - Rettilinee: modalità ordinabili, dove esiste una prima e un’ultima modalità. Es.: campione di studenti ordinati secondo l’anno di corso; - Cicliche: modalità ordinabili, per le quali non esistono né un minimo, né un massimo naturali. Es.: numero di matrimoni celebrati nel 1985 ordinati secondo il giorno della settimana; - Sconnesse: modalità non ordinabili. Es.: occupati in Italia al 30.06.05 secondo il settore di attività economica. Seriazione: distribuzione di frequenza, di una Popolazione (o Campione) di unità statistiche (u.s.), secondo un carattere quantitativo. Le seriazioni possono essere discrete o continue. RAPPRESENTAZIONI GRAFICHE DI VARIABILI QUALITATIVE La non ordinabilità delle modalità di variabili di questa natura rende impossibile il ricorso ad un riferimento di assi cartesiani. La scelta tra le tante e differenti tipologie di rappresentazione grafica di serie sconnesse è funzione della natura del fenomeno da rappresentare e del pubblico cui la rappresentazione è destinata. La maggior parte delle rappresentazioni grafiche è tale che le frequenze delle modalità della variabile qualitativa sono generalmente rappresentate con aree di figure piane. Le rappresentazioni più comuni e diffuse di grafici sono: i. Grafici a colonne. La frequenza di ciascuna modalità è rappresentata dall’area di un rettangolo di base unitaria. I rettangoli devono essere tutti tra loro staccati! Alla base di ciascuno di essi viene riportata l’etichetta della modalità a cui si riferisce la frequenza rappresentata (figura 1). L’unica scala di riferimento impiegata in questo tipo di rappresentazioni è una scala verticale, parallela alle altezze dei rettangoli: essa consente di apprezzare il livello delle frequenze rappresentate. Questo tipo di rappresentazione grafica è anche nota col nome di grafico a barre. Docente: Fabio Aiello. A.A. 2010/11. Appunti di Statistica Sociale. Università Kore di Enna. Distribuzione studenti per tipo di maturità 40 35 30 25 20 15 10 5 a cn te .i cn te om te cn .C ic al tri us nd c. er m .C cn te so e r Pr m er om om .C cn te ci op og c. . m g. si sc co ie pe nt ifi da ca g. ed a ps ic m cl ag op is as si tr a ca le 0 Figura 1. Diagramma a barre di un gruppo di studenti, secondo il tipo di maturità posseduta. ii. Grafici a nastri. Sono in tutto simili ai grafici a barre sopra esposti, ma ruotati di 90°. I rettangoli hanno altezze unitarie e, quindi, le lunghezze delle basi sono numericamente uguali alle rispettive aree. A sinistra di ciascun rettangolo si pone l’etichetta della modalità cui corrisponde la frequenza rappresentata (figura 2). Sotto tutti i nastri è riportata una scala di riferimento orizzontale, sulla quale sono riportati i livelli delle frequenze rappresentate. Distribuzione studenti per tipo di maturità tecnica tecn. industriale tecn. Commerc. Progr tecn. Commerc. tecn. Comm. sociopsicopedag. scientifica psicopedag. magistrale classica 0 5 10 15 20 25 30 35 40 Figura 2. Diagramma a nastri di un gruppo di studenti, secondo il tipo di maturità posseduta. iii. Aerogrammi a settori circolari (più comunemente noti come grafici a torta). La frequenza totale, N, delle modalità osservate della variabile, è rappresentata dalla superficie di un cerchio, con raggio unitario (r = 1). La frequenza della k-esima modalità, nk, invece, è rappresentata dall’area di un settore circolare. È noto che l’area di un settore Docente: Fabio Aiello. A.A. 2010/11. Appunti di Statistica Sociale. Università Kore di Enna. circolare è proporzionale al raggio del cerchio e all’angolo al centro, delimitato dai raggi che definiscono il settore; fissato r = 1, l’area di ciascun settore è proporzionale soltanto all’angolo la centro. L’ampiezza dell’angolo al centro, αk, del settore circolare deputato a rappresentare la frequenza assoluta, nk, o relativa, fk, della k-esima modalità, è determinata dalla proporzione: 360° α k = , N nk da cui si deriva: 360° ∀ k = 1, 2, …, K. α k = nk N Per determinare le ampiezze degli angoli al centro, per ciascuna delle k modalità osservate, è sufficiente quindi moltiplicare le frequenze di ciascuna modalità per la costante 360°/N (figura 3). Freq. classica magistrale psicopedag. scientifica sociopsicopedag. tecn. Comm. tecn. Commerc. tecn. Commerc. Progr tecn. industriale tecnica Figura 3. Aerogrammi a settori circolari un gruppo di studenti, secondo il tipo di maturità posseduta. Tutte le rappresentazioni grafiche relative a serie sconnesse sono tali che gli oggetti usati (barre, nastri, settori circolari, ecc.), per rappresentare le frequenze delle modalità, possono essere ordinati in qualsiasi modo, perché le modalità di serie sconnesse non sono ordinabili. RAPPRESENTAZIONI GRAFICHE DI VARIABILI QUANTITATIVE Le rappresentazioni grafiche, qui di seguito illustrate, appartengono alla più ampia famiglia delle tecniche per le analisi esplorative dei dati. Servono a rappresentare particolari andamenti dei fenomeni di interesse e/o ad indagare l’esistenza di relazioni tra più fenomeni. L’obiettivo è rappresentare la forma della distribuzione osservata di un fenomeno su un certo collettivo, per coglierne particolari caratteristiche, facilitandone la descrizione e la sintesi. Data la natura quantitativa dei fenomeni da rappresentare, alcune di queste rappresentazioni grafiche, come vedremo, impiegano un sistema di riferimento di assi cartesiani X0Y, detto dimetrico, ovvero dotato di diversa unità di misura per le ascisse e per le ordinate. Tra le tecniche grafiche più in uso vi sono la rappresentazione grafica tramite box-plot, gambo-efoglia, l’istogramma, il diagramma a bastoncini (o a punti), che qui di seguito verranno brevemente illustrate. La rappresentazione grafica di un fenomeno, necessita di alcune informazioni, quali, le: Docente: Fabio Aiello. A.A. 2010/11. Appunti di Statistica Sociale. Università Kore di Enna. 1. 2. 3. 4. modalità (oppure le classi) del fenomeno: xk (xk–a |⎯ xk), riportate in ascisse; frequenze assolute: nk, riportate in ordinata; frequenze assolute cumulate: Nk, riportate in ordinata frequenze relative (o funzione di frequenza): fk = f(xk), riportate in ordinata; n 5. densità (o funzione di densità): d k = k , riportate in ordinata; ak 6. frequenze relative cumulate (o funzione di ripartizione): Fk = F(xk), riportate in ordinata IL GRAFICO SCATOLA-E-BAFFI (BOX-PLOT) Il box-plot, anche noto come box and whiskers plot, o diagramma scatola-baffi, è una rappresentazione grafica della distribuzione di una variabile misurata su scala almeno ordinale. In realtà, usa molto più frequentemente tale rappresentazione in presenza di variabili quantitative. Il motivo della diffusione del box-plot risiede nel fatto che è basato su misure di posizione e di dispersione molto semplici e che permette di acquisire simultaneamente informazioni su molti aspetti della distribuzione di un fenomeno, come variabilità e forma. La rappresentazione mediante box-plot può avvenire sia verticalmente che orizzontalmente e prevede la costruzione di un rettangolo (la scatola) diviso in due parti, da cui escono due segmenti (i baffi). I due lati più corti del rettangolo sono tracciati in corrispondenza, rispettivamente, del primo quartile, Q1 (in basso, o a sinistra), e del terzo quartile, Q3 (in alto, o a destra), della distribuzione di frequenza dei dati; inoltre, il rettangolo è attraversato da un terzo segmento, intermedio e parallelo ai primi due, tracciato in corrispondenza del secondo quartile, Q2, ovvero la mediana. L’uso dei quartili garantisce che vengano rappresentati graficamente quattro intervalli della distribuzione di frequenza, ugualmente popolati. Per realizzare un box-plot sono necessari almeno cinque passi (figura 4): 1. disporre i valori da rappresentare su un asse verticale (o orizzontale); 2. disegnare una scatola sopra l’asse scelto, ad es. il verticale, in modo il cui lato inferiore sia allineato con il primo quartile, Q1, e il superiore con il terzo quartile, Q3; 3. dividere la scatola in due parti, con un segmento orizzontale allineato con la mediana, Q2; 4. tracciare una prima linea verticale, chiamata baffo, dal lato inferiore della scatola, fino al punto corrispondente al valore minimo (o altro diversamente scelto) osservato; 5. tracciare un’altra linea verticale, dal lato superiore della scatola fino al punto che risulta allineato con il valore massimo (o altro diversamente scelto) osservato. Box Plot (eser 29 g ennaio 2005.sta 10v*66c) 40 38 36 34 32 30 28 26 24 Mediana = 23 25% -75% = (22, 25) Min-M ax = (20, 39) Estremi 22 20 18 età Figura 4. Box-plot dell’età di un campione. Docente: Fabio Aiello. A.A. 2010/11. Appunti di Statistica Sociale. Università Kore di Enna. Esistono scelte alternative per rappresentare il box-plot e tutte concordano sui tre quartili per rappresentare il rettangolo, ma differiscono per la lunghezza dei segmenti. Generalmente si impiegano il valore minimo e massimo osservati, per determinare la lunghezza dei baffi, ma si possono anche operare scelte diverse, per costruire baffi più corti ed evitare valori troppo "estremi", che vengono solitamente rappresentati come dei punti. Comunemente i segmenti possono venire delimitati da: 1. particolari quantili, solitamente della forma qα e q1-α, come ad esempio i decili, q0,1 e q0,9; 2. i valori Q1–1.5(Q3–3Q1) e Q3+1.5(Q3–3Q1) 3. i valori (5Q1–3Q3)/2 e (5Q3–3Q1)/2, in modo che entrambi i segmenti siano lunghi 3/2 volte la lunghezza del rettangolo. L’esame grafico dei dati attraverso un box-plot fornisce informazioni utili per indagare la dispersione, la concentrazione e l’eventuale asimmetria della distribuzione di dati. LA RAPPRESENTAZIONE GAMBO-E-FOGLIA (STEAM-AND-LEAF) È un’altra tecnica di rappresentazione grafica, utile quando si devono esplorare insiemi composti da un numero contenuto di dati. La rappresentazione gambo-e-foglia è dedicata a misure almeno discrete e fornisce informazioni sul range dei dati, evidenzia la concentrazione delle misure più elevate e mette in luce l’eventuale presenza asimmetria. Un vantaggio di questa rappresentazione grafica è che mantiene l’informazione contenuta nei dati individuali, che si perde ad esempio nel momento in cui si raggruppano i dati, per costruire un istogramma. Inoltre, questo grafico può essere realizzato direttamente durante il processo di rilevazione dei dati, senza che questi siano organizzati in una tabella ordinata. Per costruire un grafico gambo-e-foglia è necessario dividere i dati osservati in due parti: 1. il gambo, costituito da una o più cifre iniziali del valore numerico; 2. la foglia, costituita da una o più delle rimanenti cifre. I valori così suddivisi vengono disposti insieme sullo stesso schema: i gambi formano una colonna ordinata in senso crescente, con il gambo più piccolo all’inizio e il più grande alla fine. Nella colonna sono inseriti tutti i gambi contenuti nel range dei valori, quindi compariranno anche i gambi di quei valori numerici che non sono stati realmente osservati. Le righe del grafico, invece, contengono le foglie, ordinate ed elencate a destra dei rispettivi gambi (figura 5). Quando le foglie sono formate da più di una cifra, tutte le cifre dopo la prima possono essere eliminate. Ad esempio, se i dati presentano cifre decimali, allora, queste saranno omesse nella rappresentazione gambo-efoglia. Al termine della procedura i gambi risultano separati dalle rispettive foglie da una linea verticale. Gambo 1 2 3 4 5 6 Foglia 8899 0111222222333333344444444455556666666666677777777777888888899999999 00000000001111111222223334444456667777788888999 000000111222233344455566777788888899 000112233336 1233 Figura 5. Grafico gambo-foglia dell’età di un campione. Nell’illustrazione sopra riportata, ad esempio, i primi quattro valori osservati sono (18, 18, 19, 19), che condividono il gambo (1), ma ciascuno è rappresentato dalla propria foglia. Si nota come emerge chiaramente l’asimmetria positiva della distribuzione di dati, con una netta prevalenza dei valori più piccoli. Il grafico gambo-e-foglia fornisce una tabella ordinata dei dati registrati. Va sottolineato che le rappresentazioni gambo-e-foglia sono efficaci con insiemi di dati piuttosto contenuti. In questo caso, lo sono più degli istogrammi. Docente: Fabio Aiello. A.A. 2010/11. Appunti di Statistica Sociale. Università Kore di Enna. L’ISTOGRAMMA È la tecnica da impiegare per rappresentare graficamente la forma di una distribuzione di frequenza in classi, di una variabile quantitativa continua, X. In un sistema di assi cartesiani X0Y si dispongono in ordine crescente, sull’asse delle ascisse, le classi osservate della variabile, ciascuna con ampiezza definita dall’intervallo (xk–a |⎯ xk). Sull’asse delle ordinate, invece, si dispongono: - le frequenze assolute nk, o le relative fk, delle classi, quando hanno uguale ampiezza, a; - le densità, dk, delle classi, quando ampiezze diverse, ak. È noto che l’ampiezza delle k classi, condivisa o meno, è data da: ak = xk − xk − a e costituisce la base (ak), sopra la quale si costruisce un rettangolo, la cui altezza, dk, è la densità di frequenza della classe stessa: n dk = k . ak La densità di frequenza, dk, della classe k, esprime quanta parte della frequenza della classe, nk, compete in media ad ogni segmento di ampiezza unitaria, in essa contenuto. La densità è una quantità non negativa, uniformemente distribuita in ogni classe. L’area totale dell’istogramma rappresenta l’intero ammontare di osservazioni (N, se si rappresentano le nk, 1, se le fk) ed è ripartita tra i singoli rettangoli, proporzionalmente al numero di casi entro ciascuna classe. L’area di ciascun rettangolo dell’istogramma è pari alla frequenza assoluta (o relativa) della classe corrispondente (figura 6): nk = dk⋅ak. Figura 6. Istogramma dell’età di un campione. Come è noto, le classi sono intervalli contigui, disgiunti e ordinati, quindi i rettangoli che le rappresentano in un istogramma devono essere necessariamente uniti: dove finisce la base di uno, inizia quella del rettangolo adiacente. È necessario porre molta attenzione alla definizione degli estremi delle classi, in modo che non ci siano salti di valori, che darebbero luogo a rettangoli separati. Docente: Fabio Aiello. A.A. 2010/11. Appunti di Statistica Sociale. Università Kore di Enna. IL DIAGRAMMA A BASTONCINI Quando il fenomeno è quantitativo discreto e i dati sono organizzati in una distribuzione di frequenza per modalità, la rappresentazione grafica si può pensare come caso degenere dell’istogramma, in cui le basi si riducono ad un punto. Si ricorre ancora ad un sistema di assi cartesiani dimetrico X0Y: sull’asse delle ascisse si pongono le modalità xk di X, su quello delle ordinate le frequenza assolute, nk, o le relative, fk. Data la natura di X, l’asse delle ascisse possiede un’unità di misura specifica, che serve a determinare le distanze tra le diverse modalità sull’asse. Ogni coppia modalità-frequenza (xk, nk) è rappresentata da un punto sul piano e con dei bastoncini si tracciano le proiezioni dei punti sull’asse delle ascisse (figura 7). Osservando la serie di bastoncini si coglie la forma della distribuzione di frequenza. Se non si tracciano le proiezioni, la rappresentazione prende il nome di diagramma a punti. In questo caso, data la natura discreta della variabile, mai congiungere i punti (xk, nk) con delle spezzate, che darebbero l’idea di una continuità inammissibile. Figura 7. Diagramma a bastoncini del numero di componenti per famiglia, di un campione di donne. RAPPRESENTAZIONI GRAFICHE DI SERIE STORICHE Nelle serie storiche le intensità o le frequenze dei fenomeni oggetto di studio sono relative o ad istanti di tempo, o ad intervalli di tempo. In entrambi i casi si ricorre ad un riferimento cartesiano ortogonale X0Y. Sull’asse delle ascisse si pone una corrispondenza biunivoca tra i punti dell’asse e gli istanti di tempo in cui sono rilevate le intensità del fenomeno. Le intensità o le frequenze del fenomeno saranno riportate, invece, sull’asse delle ordinate. Si otterranno rappresentazioni grafiche dalla struttura differente, a seconda che la serie storica sia relativa ad un fenomeno di stato o ad un fenomeno di flusso. Vediamole separatamente. RAPPRESENTAZIONE GRAFICA DI UN FENOMENO DI STATO Le intensità o le frequenze del fenomeno collettivo sono riferite a precisi istanti di tempo. Ciascuna coppia di valori (istante di rilevazione, intensità) sarà, quindi, rappresentata nel sistema di riferimento X0Y per mezzo di un punto. La serie di punti viene poi unita da un linea, per dare l’idea dell’andamento del fenomeno nel tempo (figura 8). In genere, si ricorre ad una spezzata per unire tutti i punti della serie, per cui ciascun punto è unito al precedente ed al seguente per mezzo di segmenti. Tale procedura corrisponde ad una precisa ipotesi (implicitamente assunta): la variazione, Docente: Fabio Aiello. A.A. 2010/11. Appunti di Statistica Sociale. Università Kore di Enna. incremento o decremento, esibita dall’intensità del fenomeno in istanti di tempo consecutivi, si realizza in modo costante negli intervalli adiacenti, che compongono l’intero periodo di osservazione. Popolazione 70 60 50 pop. 40 30 20 10 0 1940 1950 1960 1970 1980 1990 2000 2010 Anno Figura 8. Grafico a linee dell’ammontare della Popolazione Italiana in un cinquantennio (step = 10 anni). RAPPRESENTAZIONE GRAFICA DI UN FENOMENO DI FLUSSO Le manifestazioni del fenomeno collettivo sono osservate in determinati intervalli di tempo. La loro rappresentazione è sempre basata su un diagramma cartesiano, ma ora le intensità del fenomeno sono riferite a degli intervalli, adiacenti e non sovrapposti, costruiti sull’asse delle ascisse. Quindi, le intensità relative ad un dato intervallo, sono rappresentate da aree di rettangoli con base unitaria, perché sono generalmente rilevate ad intervalli di tempo uguali. La rappresentazione grafica di un fenomeno di flusso è del tutto analoga a quella di un istogramma, con classi di ampiezza unitaria e sull’asse delle ordinate sono riportate le intensità del fenomeno, dato che le aree dei rettangoli coincidono con le rispettive altezze. Non di rado, comunque, serie storiche relative a fenomeni di flusso sono rappresentate da una linea spezzata, che congiunge le intensità riferite ai punti medi degli intervalli di osservazione. Questo si può fare, sotto l’ipotesi di equidistribuzione delle manifestazioni del fenomeno, in ciascun intervallo di osservazione. A questa rappresentazione è lecito ricorrere quando: i. la serie di dati è molto lunga e gli intervalli di tempo troppo brevi; ii. lo scopo principale del grafico è rappresentare l’andamento del fenomeno nel tempo, più che evidenziare l’entità delle sue manifestazioni nei vari periodi di osservazione. ALCUNE REGOLE PER COSTRUIRE CORRETTAMENTE UN GRAFICO Per creare un grafico in maniera corretta, completa e comprensibile è opportuno seguire alcune norme elementari. 1. scegliere la rappresentazione grafica opportuna, condizionatamente alla natura del fenomeno oggetto di studio; 2. descrivere correttamente il grafico, assegnando il nome alle quantità poste sui due assi di riferimento; 3. introdurre una legenda (con simboli, linee, o colori diversi), per le diverse modalità rappresentate dal grafico: ciò può aumentare la chiarezza e la comprensibilità del grafico; Docente: Fabio Aiello. A.A. 2010/11. Appunti di Statistica Sociale. Università Kore di Enna. 4. inserire sempre le unità statistiche, nel titolo del grafico, delle quali si rappresenta la distribuzione secondo la variabile studiata; 5. citare sempre la fonte di provenienza delle informazioni rappresentate. Docente: Fabio Aiello. A.A. 2010/11.