Daniela Tondini [email protected] Facoltà di Medicina Veterinaria C.L.M in Medicina Veterinaria Università degli Studi di Teramo 1 COS’È LA STATISTICA? La statistica trae i suoi risultati dall’elaborazione dei dati forniti da un insieme di casi osservati e di esperimenti. Si tratta di una disciplina relativamente giovane, spesso confusa con le statistiche (dati, tabelle, grafici, indici, medie, …). È uno strumento, presente in tutte le scienze, essenziale per la scoperta di leggi e relazioni tra fenomeni. La parola statistica deriva dal vocabolo italiano Stato e fa riferimento alla constatazione per cui le prime informazioni su fenomeni reali sono state raccolte ed organizzate ad opera degli organismi statali che ne sono stati i principali utilizzatori. UN PO’ DI STORIA Sembrerebbe che la parola Statistica, intesa come raccolta di informazioni organizzate e gestite dallo Stato, sia stata utilizzata per la prima volta dall’italiano Girolamo Ghislini che, nel 1589, ha definito la Statistica come “descrizione delle qualità che caratterizzano e degli elementi che compongono uno Stato” e, tra il 1666 ed il 1668, ha dato alle stampe il Ristretto della civile, politica, statistica e militare scienza. Tuttavia l’evoluzione storica della disciplina in esame nasconde ben due anime: la prima connaturata nell’Homo Sapiens che prende coscienza del mondo e dei suoi simili e che, nella lotta per la sopravvivenza, elabora comportamenti ottimali per nutrirsi, difendersi e riprodursi, strategie queste che, se da un lato, alternano sconfitte e successi, dall’altro, proprio grazie ad approssimazioni successive, consentono il diffondersi di acquisizioni e convinzioni, usi e costumi e, alla fine, di conoscenza, scienza e cultura. UN PO’ DI STORIA Quando poi tali convinzioni si sono codificate nella vita del clan, della tribù, di un popolo o di una nazione, ecco che nascono le regole di comportamento, ovvero la legge, cosicché l’analisi statistica diventa di interesse pubblico al punto tale che le nazioni, a mano a mano, iniziano a dotarsi di Istituti centrali di statistica, deputati, per legge, alla raccolta, organizzazione e diffusione di dati sulla popolazione, sulle abitazioni, sulle risorse economiche e su tutti gli aspetti rilevanti della vita di una nazione, di una comunità di stati (Unione Europea) o dell’intero pianeta (Nazioni Unite). La seconda anima della statistica nasce da una constatazione differente: di fronte alla realtà che muta vi sono risultati che meritano più fiducia di altri perché si ripetono con maggiore regolarità, cosicché la mente umana registra regolarità senza certezze, convinzioni non sicurissime, ripetizioni di eventi non sempre garantiti da un esito univoco. UN PO’ DI STORIA Se, però, ciò genera, da un lato, paura ed impone cautele contro i rischi, dall’altro invita al gioco e alla scommessa (di qui il concetto di probabilità che, pur essendo ben presente nella storia e nella cultura sin dai primordi della civiltà, diventa importante e ben formalizzato solo a partire dal secolo XVIII, ovvero da quando sorge una nuova disciplina che sarà poi denominata calcolo delle probabilità; bisognerà attendere, però, l’inizio del ‘900 perché diventi e si diffonda lo studio dell’incertezza come fattore immanente nella scienza, nella tecnica e nelle attività umane, cosa questa che è avvenuta in primo luogo nelle scienze biologiche, fisiche e mediche, e poi si è trasferita nelle scienze umane, sociali, economiche e politiche). LE UNITÀ STATISTICHE I casi individuali, oggetto di osservazione, ovvero i più piccoli elementi su cui è possibile effettuare un’osservazione (un alunno di una scuola, un pezzo prodotto da una fabbrica), sono dette unità statistiche. Le unità statistiche, poi, si dividono in: - semplici (persone singole, autovetture, animali di data specie, prezzi prodotti da una macchina, lanci di una moneta, incidenti stradali, …); - composte, ovvero aggregati di unità semplici (famiglie in quanto insieme di più componenti, edifici in quanto insieme di più abitazioni, aziende, …); - multiple o complesse, ovvero formate da due o più unità semplici legate tra loro da un vincolo (marito e moglie, padre e figlio, soci di una società, …). Talvolta, però, l’unità statistica che forma il collettivo è diversa da quella che forma l’oggetto di rilevazione: ad esempio, nel censimento italiano della popolazione (industriale e commerciale), l’unità di rilevazione è la famiglia (l’impresa) e l’unità che costituisce il collettivo è l’individuo (l’azienda). LE UNITÀ STATISTICHE L’insieme di più unità statistiche, omogenee rispetto ad uno o più aspetti, costituisce il collettivo statistico: ad esempio, la popolazione presente su un dato territorio, in un’epoca stabilita, è un collettivo statistico in quanto le varie unità hanno la proprietà comune di essere presenti su quel territorio alla data indicata e di essere omogenee come specie; le aziende di un dato ramo di attività economica formano un collettivo statistico. Riguardo alla numerosità, i collettivi possono essere: - finiti, costituiti da un numero finito di elementi (popolazioni, aziende, …); - infiniti (collettivo dei lanci di una moneta, quello delle prove o degli esperimenti, …). LE UNITÀ STATISTICHE Si definisce dato statistico il risultato di un’operazione compiuta sulle unità statistiche (numero di alunni maschi di una classe, prezzo medio di un determinato bene, …). I dati statistici, poi, possono rappresentare due grandezze diverse: - frequenza, se esprimono il numero di volte in cui il fenomeno si è verificato in un periodo di tempo (basti pensare ad un contatore che esegue un conteggio); - intensità, se rappresentano una media o una somma di misure effettuate sulle unità statistiche (ad esempio, la misura di un peso, la lunghezza, la superficie, il volume, …, oppure un valore o una valuta). Le unità statistiche, inoltre, vengono studiate secondo uno o più caratteri. I CARATTERI E LE MODALITÀ I caratteri sono aspetti particolari, ovvero che si desidera mettere in evidenza, delle unità statistiche: ad esempio, per un individuo si possono osservare l’età, il titolo di studio, il reddito, la professione, …; per un’azienda si possono osservare il tipo di attività, la forma giuridica, gli investimenti, la produzione, il numero degli addetti, … I caratteri, poi, vengono identificati mediante varie modalità, ovvero espressioni concrete (numeri o attributi), attraverso le quali la variabile si manifesta nelle unità statistiche. L’elenco di tutte le possibili modalità di una variabile, poi, si dice esaustivo se tale elenco è completo. Le modalità possono essere: - esclusive o disgiunte se un’unità statistica può manifestare la variabile in una ed una sola modalità tra quelle indicate; - quantitative (età, reddito, investimenti, numero di addetti, popolazione, …), se sono espresse con valori risultanti da misurazioni o conteggi: se tali valori sono compresi in un intervallo continuo, ovvero reale, si parla di modalità continue (l’età, il peso, l’altezza, la temperatura di una stanza, …); se, invece, si tratta di determinati valori, ovvero di numeri interi e generalmente limitati, si parla di modalità discrete (il voto dell’esame di matematica, il numero dei componenti di una famiglia, …); I CARATTERI E LE MODALITÀ - qualitative (professione, titolo di studio, anno di nascita, tipo di attività, forma giuridica, grado delle scuole, marche di automobili, …), se sono individuate tramite espressioni verbali o attributi; tali valori, poi, si distinguono in ordinabili e non ordinabili o nominali, a seconda che esista o meno un ordine logico di successione delle varie modalità: ad esempio, il colore degli occhi è un carattere ordinabile dal più chiaro al più scuro, così come sono ordinabili la valutazione scolastica ed il grado militare; le professioni, la religione, la nazionalità delle persone, invece, non sono logicamente ordinabili, in quanto è difficile stabilire una graduatoria di importanza di tali modalità. Tali caratteri, quindi, si presentano con entità (nel caso di caratteri quantitativi) o con qualità (nel caso di caratteri qualitativi), generalmente diverse da unità ad unità, dette appunto modalità. In genere una singola variabile si indica con X e le modalità che essa assume con x1, x2, x3, … CARATTERI E MODALITÀ Esempio: distribuzione di 30 giovani presenti in una sala giochi secondo l’età. carattere modalità quantitativa discreta ETÀ NUMERO 15 7 16 8 17 5 18 4 19 6 Tot. 30 frequenze CARATTERI E MODALITÀ Esempio: distribuzione delle auto consegnate da un concessionario nel 2014. carattere MARCA/MODELLO CONSEGNE frequenze modalità qualitativa Fiat Punto 144017 Lancia Y 57540 Toyota Yaris 42481 Peugeot 206 42141 Volkswagen Golf 16849 Renault Megan 17258 Opel Corsa 40416 Tot. 379942 CARATTERI E MODALITÀ Esempio: distribuzione delle importazioni dello stato italiano dal 2007. carattere modalità qualitativa ANNI IMPORTAZIONI (milioni di euro) 2007 112877 2008 119878 2009 127123 2010 159374 2011 278091 2012 169767 2013 197245 2014 136917 intensità VARIABILI STATISTICHE La classificazione delle unità statistiche rilevate, secondo le modalità di uno o più caratteri, dà luogo alle cosiddette tabelle statistiche che possono essere: - semplici se si considera un solo carattere; - multiple se si considerano due o più caratteri per ogni unità. Una variabile statistica (v.s.), indicata in genere con X, è definita dall’insieme dei valori di un carattere quantitativo e dalle frequenze ad essi associate. Se si considera ora un collettivo statistico (ad esempio, un gruppo di N aziende), per ogni unità del quale si conoscano le intensità di un suo carattere (ad esempio, il numero degli addetti) e si ordinano tali intensità dalla più piccola alla più grande, si può osservare che, in genere, le N intensità non saranno tutte distinte, cosicché ad ogni modalità distinta, xi, sarà associata una frequenza ni. Modalità di carattere X Frequenze assolute x1 n1 x2 n2 … … xs ns Tot. N s ni N i 1 VARIABILI STATISTICHE Frequenza assoluta (F.A.): numero delle unità statistiche che godono di una certa proprietà, ovvero il numero di volte in cui un evento si verifica. Frequenza relativa (F.R.): F .R. F . A. N essendo N il numero totale delle unità statistiche (la somma delle frequenze relative è pari ad 1). Frequenza percentuale (F.%): F .% F .R. 100 (la somma delle frequenze percentuali è pari a 100). Frequenza cumulata (F.C.): associa ad ogni valore o classe della variabile la somma della rispettiva frequenza, con le frequenze dei valori precedenti. In particolare si avrà la frequenza cumulata assoluta (F.C.A.), relativa (F.C.R) e percentuale (F.C.%). VARIABILI STATISTICHE Esempio: completare la seguente tabella. N.stanze N.abitazioni (F.A.) F.R. F% F.C.A. F.C.R. F.C.% 1 2877 0,02 2,22 2877 0,02 2,22 2 19878 0,15 15,36 22755 0,18 17,58 3 69767 0,54 53,90 92522 0,71 71,48 4 36917 0,29 28,52 129439 1,00 100,00 Tot. N = 129439 1,00 100,00 VARIABILI STATISTICHE L’insieme delle N determinazioni costituisce una distribuzione statistica o, in termini più matematici, una variabile statistica, indicata con X. I valori della v.s. possono essere disposti più brevemente nel modo seguente: x1 x2 ... xs n n ... n 1 2 s ovvero utilizzando la cosiddetta matrice dei dati, rappresentazione tabellare mediante la quale si schematizzano le informazioni (misure, registrazioni o risposte) raccolte su ciascuna unità statistica in rapporto ad una molteplicità di variabili, in cui ogni colonna esprime una variabile, qualitativa o quantitativa, rilevata sulle diverse unità statistiche ed ogni riga esprime ordinatamente le rilevazioni su tutte le variabili ottenute per una singola unità statistica. La v.s. è discreta se i valori assunti si riferiscono ad un insieme discreto, ovvero numerabile di valori isolati, continua se i valori assunti si riferiscono ad un insieme continuo (i numeri reali di un qualunque intervallo). Se, poi, le determinazioni distinte sono raggruppate in classi, si parla di v.s. divisa in intervalli. VARIABILI STATISTICHE I singoli intervalli possono essere chiusi a sinistra e aperti a destra, ad esempio della forma: xi | xi 1 , i 1, 2,..., s ovvero tale intervallo comprende il valore xi ed esclude il valore successivo xi+1. Ad esempio, nel caso dell’età, l’intervallo 20 |--- 25 va dal giorno in cui si compie il 24-esimo anno fino a 24 anni e 364 giorni. Caratteristiche opposte hanno gli intervalli aperti a sinistra e chiusi a destra, della forma: xi | xi 1 , i 1, 2,..., s VARIABILI STATISTICHE Si ha, pertanto, una tabella della forma: Classi di modalità di carattere X Frequenze assolute x1|---x2 n1 x2|---x3 n2 … … xs|---xs+1 ns Tot. N VARIABILI STATISTICHE v.s. discreta: famiglie italiane secondo l’ampiezza al censimento demografico del 24 ottobre 1971. Classi di modalità di carattere X (numero di componenti) Famiglie (in migliaia) 1 2062 2 3509 3 3582 4 3390 5 1893 6 843 7 366 8 169 9 e più 167 Tot. N = 15981 VARIABILI STATISTICHE v.s. discreta: cliniche private di medicina generale secondo il numero dei posti letto in Italia nel 1977. Classi di ampiezza (posti letto) Cliniche fino a 25 23 26 --- 50 158 51 --- 75 134 76 --- 100 101 101 --- 125 43 126 --- 150 50 151 --- 200 27 201 --- 250 10 251 --- 300 5 301 --- 350 6 351 --- 400 1 401 --- 500 2 Tot. N = 560 VARIABILI STATISTICHE v.s. continua: distribuzione percentuale (e non assoluta) dei redditi familiari di un campione di famiglie italiane nel 1977. Classi di reddito (migliaia di euro) Percentuali di famiglie Fino a 500 1,1 500 --- 1000 6,0 1000 --- 1500 9,9 1500 --- 2000 12,3 2000 --- 2500 12,8 2500 --- 3000 10,8 3000 --- 3500 9,0 3500 --- 4000 7,2 4000 --- 4500 6,2 4500 --- 5000 4,9 5000 --- 6000 7,5 oltre 6000 12,3 Tot. N = 100,0 VARIABILI STATISTICHE v.s. continua: aziende agricole secondo classi di superficie totale al 1975. Classi di superficie totale (in ettari) Aziende (migliaia) Superficie complessiva (in migliaia di ettari) Senza terreno agrario 12 --- fino a 1 469 309 1 --- 2 598 913 2 --- 3 365 931 3 --- 5 428 1703 5 --- 10 418 2989 10 --- 20 217 3047 20 --- 30 64 1577 30 --- 50 45 1742 50 --- 100 29 2015 oltre 100 19 7175 Tot. 2664 22401 MUTABILI STATISTICHE Una mutabile statistica (m.s.) è definita dall’insieme delle modalità di un carattere qualitativo e dalle frequenze ad esse associate. Modalità di carattere A Frequenze assolute a1 n1 a2 n2 … … as ns Tot. N MUTABILI STATISTICHE Una mutabile statistica rettilinea (m.s.r.) si ha quando le modalità ai ammettono un ordine naturale di successione con una modalità iniziale ed una finale: ad esempi, la popolazione residente in età da sei anni in poi per grado di istruzione in Italia al censimento demografico 1971. Grado di istruzione Popolazione (migliaia) Analfabeti 2547 Alfabeti privi di titolo di studio 13240 Licenza elementare 21586 Licenza media inferiore 7151 Diploma 3364 Laurea 883 Tot. 48771 MUTABILI STATISTICHE Un altro esempio di m.s.r. è dato dai giorni dell’anno 2014 secondo lo stato del cielo rilevato dalla stazione metereologica di Roma-Urbe. Stato del cielo Giorni Sereno 71 Variabile 179 Coperto 115 MUTABILI STATISTICHE Una mutabile statistica ciclica (m.s.c.) si ha quando le modalità ai presentano un ordine naturale di successione, ma non si può dire quale sia la prima e quale sia l’ultima: ad esempio, gli incidenti stradali secondo i giorni della settimana in Italia nel 1977. Giorni della settimana Incidenti Lunedì 35868 Martedì 37144 Mercoledì 37005 Giovedì 36418 Venerdì 40725 Sabato 38313 Domenica 33244 MUTABILI STATISTICHE Un altro esempio di m.s.c. è dato dai biglietti venduti nelle sale cinematografiche italiane nei dodici mesi dell’anno 2014. Mesi dell’anno Biglietti venduti (in migliaia) Gennaio 35,3 Febbraio 26,8 Marzo 29,8 Aprile 31,7 Maggio 24,0 Giugno 15,5 Luglio 15,9 Agosto 20,7 Settembre 23,1 Ottobre 29,9 Novembre 29,9 Dicembre 34,0 MUTABILI STATISTICHE Una mutabile statistica sconnessa (m.s.s.) si ha quando le modalità ai non presentano un ordine naturale di successione: ad esempio, le forze-lavoro occupate per settore di attività economica in Italia nell’anno 1978. Settore di attività economica Occupati (in migliaia) Agricoltura 3090 Industria 7633 Altre attività 9436 MUTABILI STATISTICHE Un altro esempio di m.s.s. è data dagli studenti immatricolati all’Università in Italia nell’anno accademico 2014/15 secondo gruppi di corsi di laurea. Gruppi di corsi di laurea Studenti immatricolati Scientifico 32160 Medico 25954 Ingegneria 31364 Agrario 11059 Economico 46452 Giuridico 36550 Letterario 51985 FENOMENI COLLETTIVI I collettivi statistici sono alla base dello studio dei cosiddetti fenomeni collettivi, ovvero di quei fenomeni naturali o sociali (ammontare della popolazione, grado di istruzione, produzione agricola, …) la cui conoscenza e misura richiede l’osservazione delle diverse unità che fanno parte del collettivo. Sulla base di tale concetto, quindi, si può affermare che la statistica è un insieme di metodi per lo studio dei fenomeni collettivi, ovvero delle caratteristiche che nei collettivi statistici si manifestano in modo variabile in seguito all’influenza di varie circostanze. Il collettivo statistico è, dunque, l’insieme che si studia (le aziende); il fenomeno collettivo è l’aspetto particolare che interessa studiare del collettivo (il numero degli addetti). Il collettivo statistico osservato può comprendere tutte le unità omogenee rispetto ad una caratteristica comune e lo si può indicare, in tal caso, col termine popolazione. Si va ad osservare, pertanto, l’intera popolazione o un campione della popolazione qualora ci sia difficoltà ad osservare tutte le unità statistiche. LE FASI DI UN’INDAGINE STATISTICA Lo studio di un fenomeno con metodo statistico, ovvero l’indagine statistica, si può articolare in quattro fasi: - rilevazione: insieme di operazioni con le quali si perviene alla conoscenza dei dati ossia delle modalità di uno o più caratteri collettivi; la rilevazione è completa se si esaminano tutti gli elementi oggetto di studio, e parziale se, invece, ci si limita a studiare un sottoinsieme, ovvero un campione, dell’insieme di riferimento; - elaborazione: insieme di operazioni attraverso le quali i dati rilevati (dati originari o grezzi) vengono opportunamente classificati e sintetizzati al fine di ottenere dati più espressivi (dati derivati); - presentazione: esposizione dei dati statistici in forma chiara e compatta, con tabelle, grafici, medie, indici, … - interpretazione: spiegazione delle risultanze dell’indagine statistica alla luce delle teorie e delle precedenti conoscenze del fenomeno studiato o di altri fenomeni ad esso connessi. Si osservi che la seconda e la terza fase hanno caratteri squisitamente tecnicostatistico; la prima e l’ultima, invece, richiedono la conoscenza, non solo del metodo statistico, ma anche del fenomeno studiato. LA RILEVAZIONE STATISTICA In particolare la rilevazione statistica, ovvero quel complesso di operazioni rivolte ad acquisire una o più informazioni su un insieme di elementi oggetto di studio, può essere classificata: - rispetto alla complessità delle operazioni: semplice (ad esempio, misurare l’altezza di un individuo, chiedere il sesso o la data di nascita ad un impiegato, …) o complessa (ad esempio, codificare un bilancio aziendale, valutare il ritmo di accrescimento di cellule tumorali, …); - rispetto alla natura delle informazioni raccolte: risposta (ad esempio, opinioni, informazioni personali, gusti, …) o misura (ad esempio, metro, bilancia, orologio, …); - rispetto al gruppo di riferimento: globale (ad esempio, i censimenti, lo studio di tutti i laureati di un certo Ateneo, …) o parziale (ad esempio, i sondaggi di opinione, le interviste telefoniche, …). LA RILEVAZIONE STATISTICA Popolazione (o Universo) è un qualsiasi insieme di elementi che forma l’oggetto di uno studio statistico. La popolazione può essere: - reale, quando essa è effettivamente esistente e visibile (ad esempio, le lampadine prodotte nell’ultimo mese da un’azienda di Milano, le stelle della Via Lattea, …); - virtuale, quando essa non è osservata né è osservabile perché astratta o connessa al futuro, ma è comunque ben definita (ad esempio, gli acquirenti di un certo modello di automobile che si sta progettando, gli studenti che il prossimo anno supereranno l’esame di matematica, …). Campione è un qualsiasi sottoinsieme derivato da una certa popolazione e finalizzato ad uno studio statistico. Si parla di popolazione, quindi, quando il collettivo di riferimento esaurisce tutte le informazioni che si ritengono utili per l’indagine statistica; si parla, invece, di campione, quando tali informazioni sono derivate da un sottoinsieme proprio della popolazione di riferimento (ad esempio, i residenti del comune di Firenze costituiscono un campione degli italiani ma sono anche la popolazione dei residenti a Firenze; l’analisi delle caratteristiche di tali elementi, pertanto, sarà svolta con metodologie differenti, a seconda che l’indagine punti a studiare la collettività dei fiorentini o quella degli italiani). La Statistica privilegia un approccio allo studio dei fenomeni che presuppone sempre una dimensione campionaria. DUE DIVERSE «STATISTICA» All’interno della disciplina metodologica, inoltre, si possono distinguere due diverse correnti: la statistica descrittiva e la statistica inferenziale. Con il termine di Statistica Descrittiva si intende un insieme di tecniche e strumenti finalizzati ad assolvere uno dei principali compiti assegnati alla Statistica, ovvero descrivere, rappresentare e sintetizzare in maniera opportuna un insieme o campione di dati relativamente ad un problema; tale branca, che ha come obiettivo quello di organizzare, riassumere e presentare i dati in modo ordinato attraverso strumenti di tipo sia grafico che numerico, si occupa di fotografare una data situazione e di sintetizzarne le caratteristiche salienti, ovvero di descrivere ciò che si osserva o ciò che i dati evidenziano nei loro tratti essenziali. Tale corrente tende ad evidenziare le regolarità presenti nei dati. La Statistica Inferenziale o Inferenza Statistica, invece, comprende le tecniche matematiche per quantificare il processo di apprendimento tramite l’esperienza; utilizza i dati statistici, anche opportunamente sintetizzati dalla statistica descrittiva, per fare previsioni di tipo probabilistico su situazioni future o comunque incerte; con la statistica inferenziale, quindi, si cerca di raggiungere conclusioni che si estendono oltre i dati raccolti nel loro immediato e che possono essere valide e riferibili ad un contesto più ampio rispetto a quello dei dati di quel singolo esperimento. Tale corrente tende a giustificare le osservazioni in termini di modelli teorici esplicativi dei fenomeni. LE TABELLE STATISTICHE Una tabella a semplice entrata (come visto nei precedenti esempi) è costituita da due colonne: la prima riporta le varie modalità qualitative o quantitative del carattere; la seconda, invece, riporta le frequenze o le intensità. Inoltre, una successione di dati ordinati secondo le modalità qualitative di un fenomeno è detta serie statistica, in quanto si dispone di rilevazioni sulle singole unità statistiche isolatamente considerate; una successione di dati ordinati secondo le modalità quantitative di un fenomeno, invece, è detta seriazione statistica, in quanto le informazioni sono organizzate in tabelle nelle quali alle modalità della variabile corrispondono le rispettive frequenze. modalità qualitative serie statistica Grado delle scuole N.alunni iscritti Scuole materne 1.577.696 Scuole elementari 2.859.379 Scuole medie 1.775.009 Scuole superiori 2.543.750 Tot. 8.755.834 LE TABELLE STATISTICHE modalità qualitative serie territoriale o geografica Circoscrizioni elettorali Elettori Nord occidentale 12.702.945 Nord orientale 8.879.456 Centrale 9.445.290 Meridionale 11.654.099 Insulare 5.576.311 Tot. 48.258.101 LE TABELLE STATISTICHE modalità quantitative continue seriazione continua Classi di superficie (in migliaia di ettaro) N.comuni fino ad 1 1741 1 ---|2 2061 2 ---|4 2093 4 ---|6 883 6 ---|10 742 10 ---|25 513 Tot. 8033 LE TABELLE STATISTICHE Una tabella a doppia entrata è caratterizzata dal fatto che le unità statistiche vengono classificate contemporaneamente rispetto a due caratteri (e non più rispetto ad uno solo, come visto nelle tabelle a semplice entrata). In particolare: - se i due caratteri sono entrambi qualitativi (ad esempio, la popolazione italiana secondo il sesso e lo stato civile), si parla di mutabile statistica doppia; - se i due caratteri sono entrambi quantitativi (ad esempio, la popolazione italiana secondo la statura ed il peso), si parla di variabile statistica doppia; - se uno dei due caratteri è quantitativo (ad esempio, l’età) e l’altro qualitativo (ad esempio, lo stato civile), si parla di distribuzione mista. LE TABELLE STATISTICHE Esempio di mutabile statistica doppia: iscritti alle liste di collocamento della Regione Puglia. caratteri modalità qualitative carattere «settore» modalità qualitative carattere «sesso» Sesso Maschi Femmine Agricoltura 44.000 60.000 Industria 97.000 37.000 Altre attività 46.000 44.000 Nessun settore 175.000 229.000 Tot. 362.000 370.000 Settore LE TABELLE STATISTICHE Esempio di variabile statistica doppia: distribuzione di 100 abitazioni secondo il numero dei vani ed i componenti delle famiglie. caratteri modalità quantitative carattere «numero vani» modalità quantitative carattere «componenti famiglie» Componenti famiglie N.vani 1 2 3 4 5 6 1 10 4 1 0 0 0 2 6 10 5 2 0 0 3 3 10 12 8 2 1 4 1 3 8 4 2 2 5 0 1 2 1 1 1 LE TABELLE STATISTICHE Esempio di distribuzione mista: distribuzione di forze-lavoro per classe di età e condizione professionale. modalità quantitative carattere «classe di età» Classe di età modalità qualitative carattere «condizione professionale» Condizione professionale 15-19 Occupati 321 Disoccupati 222 20-24 1461 650 25-29 2566 578 30-34 3313 421 35-44 6063 463 45-54 4756 232 55-64 65 e oltre 1879 94 333 8 LE TABELLE STATISTICHE Ogni anno nel mondo vengono pubblicati da enti nazionali ed internazionali molti libri che contengono statistiche; basti pensare: - all’Ufficio Statistiche dell’ONU (Organizzazione delle Nazioni Unite) che pubblica le statistiche mondiali relative agli stati, alle popolazioni e ai settori dell’economia; - all’Eurostat, l’ente statistico europeo, che pubblica i dati dei paesi membri dell’Unione Europea; - all’ISTAT, Istituto Centrale di Statistica, che pubblica le statistiche ufficiali dell’Italia, ad esempio nell’Annuario Statistico Italiano (annuale) e nel Compendio Statistico Italiano. Tali libri sono usati dagli enti pubblici (stato, regioni, comuni) e dalle società industriali e commerciali per i loro studi. Di carattere divulgativo è, invece, il Calendario Atlante De Agostini, un piccolo volume che seleziona ogni anno statistiche di tutti i tipi (mondiali, italiane e dei singoli stati). RAPPRESENTAZIONI GRAFICHE La Statistica Descrittiva è volta alla rappresentazione di uno o più fenomeni reali su cui si sia condotto uno studio: la rappresentazione grafica di uno o più fenomeni statistici, infatti, non aggiunge e non toglie alcuna informazione ai dati oggetto di studio, in quanto i grafici non contengono dati diversi rispetto a quelli riportati nelle tabelle statistiche, ma consentono di cogliere, con maggiore evidenza visiva, la struttura e l’andamento di uno o più fenomeni, permettendo di confrontarli rapidamente, aiutando così l’analisi ed il ragionamento. Metodo grafico e metodo numerico, dunque, risultano complementari tra loro. Le rappresentazioni grafiche, pertanto, costituiscono uno dei mezzi più efficaci, sia per descrivere in forma visiva i risultati di numerose osservazioni riguardanti una o più caratteristiche di un collettivo statistico, sia per scoprire relazioni e connessioni tra tali caratteristiche o tra le variazioni nel tempo e nello spazio dei fenomeni rilevati. Le rappresentazioni grafiche hanno lo scopo di illustrare, mediante figure, linee o segmenti, superfici o aree, solidi, simboli convenzionali, ..., una distribuzione, di frequenze o di intensità, in funzione delle modalità, qualitative o quantitative, di uno o più caratteri. DIAGRAMMA CARTESIANO È usato generalmente per le serie storiche o temporali e per le seriazioni discrete che misurano la dinamica di un certo fenomeno, rilevata all’istante o in un periodo di tempo prefissato. Si costruisce tracciando una retta orizzontale x (asse delle ascisse), di verso positivo, fissando su di essa un’origine O, e tracciando un’altra retta y (asse delle ordinate), anch’essa di verso positivo, perpendicolare alla prima e passante per l’origine. Le due rette, x ed y, formano un sistema di assi cartesiani che dividono il piano in quattro regioni, denominati quadranti, indicate, in senso antiorario, mediante numeri romani progressivi (I, II, III, IV). Il segno delle coordinate, quindi, dipende proprio dal quadrante in cui il punto in esame si trova, precisamente: - primo quadrante: ascissa ed ordinata entrambe positive; - secondo quadrante: ascissa negativa ed ordinata positiva; - terzo quadrante: ascissa ed ordinata entrambe negative; - quarto quadrante: ascissa positiva ed ordinata negativa. DIAGRAMMA CARTESIANO II QUADRANTE P = (x, y) = (, +) asse delle ordinate y O I QUADRANTE P = (x, y) = (+, +) asse delle ascisse III QUADRANTE IV QUADRANTE P = (x, y) = (, ) P = (x, y) = (+, ) x DIAGRAMMA CARTESIANO Fissata, quindi, un’unità di misura per entrambi gli assi (l’unità di misura sui due assi può essere diversa e va scelta tenendo presenti il più piccolo ed il più grande valore da rappresentare in modo che figurino con chiarezza entro i limiti stabiliti per il grafico), si riportano, sull’asse delle ascisse, le modalità del carattere investigato (ove per carattere si intende il tipo di dati su cui si fonda lo studio e per modalità il modo in cui il carattere si manifesta) e su quello delle ordinate le corrispondenti frequenze. Per ogni coppia modalitàfrequenza, pertanto, si individua un punto P del piano, le cui proiezioni, indicate con A (quella su Ox) e B (quella su Oy), ovvero le coordinate del punto P, rispettivamente l’ascissa e l’ordinata, non sono altro che le misure dei segmenti OA ed OB. Occorre osservare, a tal riguardo, però, che la Statistica utilizza esclusivamente il primo quadrante essendo, sia le modalità del carattere, sia le rispettive intensità o frequenze, quantità positive. DIAGRAMMA CARTESIANO frequenze y P ordinata di P B ascissa di P O modalità A x DIAGRAMMA CARTESIANO Il diagramma in coordinate cartesiane, inoltre, può essere: - per caratteri discontinui o a segmenti: utilizzato per i caratteri discontinui (quantitativi o qualitativi), si avvale di segmenti rettilinei e paralleli aventi lunghezza proporzionale alle intensità o alle frequenze del carattere studiato; - per caratteri continui o logaritmici: utilizzato quando la serie di osservazioni, avendo variazioni troppo ampie, non può essere riprodotta in scala naturale, si ottiene ponendo, sull’asse x, le modalità del carattere in scala naturale e, sull’asse y, le relative frequenze in scala logaritmica, dando luogo al cosiddetto poligono di frequenza. Quando l’ampiezza delle classi, quindi, diviene infinitesima, la si approssima ad una curva regolare, detta curva di frequenza; se, invece, la distribuzione del carattere riporta, in corrispondenza delle diverse modalità, le frequenze relative, la rappresentazione prenderà il nome di poligono di frequenze relative. Il poligono delle frequenze cumulate, o ogiva di frequenza, dunque, rappresenta graficamente una distribuzione cumulativa di frequenza. DIAGRAMMA CARTESIANO Il diagramma cartesiano di seguito riportato, ad esempio, illustra le temperature (frequenze) registrate nelle varie ore (modalità) di una giornata in una determinata località, scelta a piacere. Per agevolare la lettura del grafico i successivi punti modalità-frequenza vengono spesso congiunti con dei segmenti in modo da formare una spezzata. DIAGRAMMA CARTESIANO Il diagramma cartesiano può essere facilmente realizzato con Excel, mediante i grafici a linee (per le serie storiche) ed i grafici a dispersione (per le seriazioni discrete). Esempio: distribuzione delle importazioni dello Stato Francese dal 2000 (serie storica grafico a linee) 2000 IMPORTAZIONI (milioni di euro) 112877 2001 119878 2002 127123 2003 159374 2004 278091 2005 169767 2006 197245 2007 136917 ANNI DIAGRAMMA CARTESIANO Importazioni in Francia 300000 250000 200000 150000 100000 50000 0 1 Importazioni (in miolini di euro) 112.877 Anni 2000 2 119878 2001 3 127123 2002 4 159374 2003 5 278091 2004 6 169767 2005 7 197245 2006 8 136917 2007 DIAGRAMMA CARTESIANO Esempio: distribuzione di 30 giovani presenti in una sala giochi (serie discreta grafico a dispersione, composto da soli punti) 15 NUMERO (F.A.) 7 16 8 15 17 5 20 18 4 24 19 6 30 Tot. 30 96 ETÀ F.A.C. 7 F.A. = frequenza assoluta F.A.C. = frequenza cumulata DIAGRAMMA CARTESIANO Andamento delle F.A. 9 8 7 F.A. 6 5 Numero (F.A.) 4 3 2 1 0 0 2 4 6 8 10 Età 12 14 16 18 20 ISTOGRAMMA È utilizzato per caratteri qualitativi ordinati e quantitativi continui con le modalità del carattere raggruppate in classi della medesima ampiezza, sì da evitare errori nella costruzione del grafico, ovvero per seriazioni continue con dati raggruppati in classi. Sull’asse delle ascisse si riportano tanti intervalli quante sono le classi e sui vari intervalli si costruiscono rettangoli le cui aree sono proporzionali alle frequenze. Costituito da rettangoli adiacenti (l’adiacenza del rettangolo rappresenta proprio la continuità del carattere) che si sviluppano su un asse orizzontale, orientato e dotato di un’unità di misura (l’asse ha l’unità di misura del carattere e può essere inteso come l’asse delle ascisse), ha la base di lunghezza pari all’ampiezza della corrispondente classe, l’altezza uguale o proporzionale alle frequenze (assolute o relative) delle unità statistiche di ciascuna classe, ovvero proporzionale al rapporto tra la frequenza assoluta associata alla classe e l’ampiezza della classe stessa, l’area uguale alle frequenze delle classi e la somma delle aree dei rettangoli uguale alla somma delle frequenze dei valori appartenenti alle varie classi. Nel caso in cui le classi non abbiano la stessa ampiezza, invece, il grafico si ottiene costruendo rettangoli contigui con altezza pari alla densità di frequenza, ovvero al rapporto tra la frequenza della classe e l’ampiezza corrispondente. Istogramma = diagramma di aree ISTOGRAMMA L’istogramma non deve essere confuso con il grafico a colonne (cfr. i diagrammi a barre): quest’ultimo, infatti, a differenza del primo, ha altezza proporzionale alla frequenza ed è costituito da rettangoli separati tra loro, le cui aree sono proporzionali alle frequenze. L’istogramma, inoltre, può essere: - per classi di modalità di uguale ampiezza: i valori del carattere sono raggruppati in classi di uguale ampiezza ed i rettangoli contigui, che si sviluppano dall’asse orizzontale, hanno le basi pari all’ampiezza della classe e l’altezza uguale o proporzionale alla frequenza della classe corrispondente; - per classi di modalità di diversa ampiezza: l’area dei rettangoli che insistono sulle classi è pari alla frequenza della classe corrispondente; essendo, poi, l’area del rettangolo pari al prodotto tra l’ampiezza di classe e l’altezza, ne segue che, in presenza di classi di diversa ampiezza, l’altezza dei rettangoli è uguale al rapporto tra la frequenza di classe e l’ampiezza corrispondente (densità di frequenza); in tal caso si congiungono i punti medi dei lati superiori dei rettangoli ottenendo una spezzata, denominata poligono delle frequenze, in cui ogni vertice corrisponde al valore centrale di una classe. ISTOGRAMMA Classi di modalità di ampiezza diversa: in tal caso, le altezze dei rettangoli si ottengono dividendo la relativa frequenza per l’ampiezza della classe, in modo che l’area del rettangolo rappresenti la frequenza, al fine di rispettare il requisito di proporzionalità. Risulta quindi necessario calcolare le cosiddette densità, che possono essere definite equivalentemente come segue: F . A. F .R. F .% d , d , d ampiezza ampiezza ampiezza In tal caso, ovvero con classi di ampiezza diversa, rappresentare un istogramma con Excel non è possibile: indipendentemente dalle reali ampiezze delle classi, infatti, Excel genera comunque rettangoli con basi di pari lunghezza. Bisogna allora necessariamente procedere con la costruzione manuale oppure utilizzare un software alternativo. ISTOGRAMMA Nell’esempio che segue, si definiscono classi per rappresentare il peso di 177 neonati (in tal caso la densità viene calcolata come F.R./ampiezza): d F .R. 0.051 ampiezza 500 ISTOGRAMMA Si osservi che con l’istogramma, la somma delle aree di tutti i rettangoli è proporzionale alla somma delle frequenze. ISTOGRAMMA Classi di modalità di ampiezza uguale: in tal caso, l’altezza di ciascun rettangolo è pari al valore della frequenza, condizione questa che soddisfa il criterio di proporzionalità tipico dell’istogramma (la base di ciascun rettangolo è, infatti, un valore costante, per cui l’area è proporzionale alla frequenza). In tal caso, ovvero con classi di ampiezza uguale, rappresentare un istogramma con Excel è possibile. L’istogramma di seguito riportato, ad esempio, illustra i dati relativi agli alunni che frequentano le scuole superiori in una città italiana: Liceo Classico 100 Liceo Scientifico 459 Istituto Commerciale 358 Istituto Tecnico 300 Liceo Linguistico 150 Istituti Professionali 25 Istogramma DIAGRAMMA A SETTORE CIRCOLARE O GRAFICO A TORTA Utilizzato per i caratteri qualitativi, tale rappresentazione mostra le proporzioni delle parti rispetto all’insieme: le diverse percentuali di un’indagine statistica, visualizzate attraverso aree proporzionali di una figura geometrica piana, infatti, consentono di effettuare confronti fra diverse grandezze, senza necessariamente riferirsi ad un totale, al fine di evitare di stabilire, anche involontariamente, un ordine che non esiste nelle categorie, cosa che accadrebbe utilizzando un istogramma. Ciascun diagramma circolare, quindi, è caratterizzato dalla corrispondenza tra intensità o frequenze da una parte e superfici di cerchi o di settori circolari dall’altra, come riportato nella seguente figura: DIAGRAMMA A SETTORE CIRCOLARE O GRAFICO A TORTA Un diagramma circolare viene costruito, pertanto, dividendo un cerchio in spicchi le cui ampiezze angolari sono proporzionali alle classi di frequenza, ovvero le aree sono proporzionali alle frequenze o equivalentemente gli angoli al centro dei diversi settori circolari hanno ampiezza proporzionale alle frequenze percentuali. Il diagramma circolare, inoltre, può essere: - areogramma per cerchi o grafico a bolle: le misure delle superfici dei cerchi devono essere proporzionali alle intensità o frequenze da rappresentare; in tal caso, quindi, si assume un cerchio base che indica l’intensità o la frequenza più bassa e, per rappresentare un’intensità o una frequenza doppia o pari ad x volte quella minima, si ricorre a cerchi aventi area doppia o pari ad x volte quella minima; - areogramma per settori circolari o grafico a torta: l’area del cerchio esprime, in termini assoluti o percentuali, l’intensità o la frequenza totale; i settori circolari, individuati dividendo l’intero angolo giro in parti proporzionali alle intensità o frequenze da rappresentare, invece, esprimono le intensità o le frequenze delle varie modalità del carattere preso in considerazione. DIAGRAMMA A SETTORE CIRCOLARE O GRAFICO A TORTA Il diagramma circolare di seguito riportato, ad esempio, illustra il numero dei promossi, rimandati e respinti in un liceo frequentato da N = 600 allievi: Promossi 180 Rimandati 365 Respinti 55 Areogramma DIAGRAMMA A BARRE O ORTOGRAMMA O A CANNE D’ORGANO Utilizzato per rappresentare caratteri qualitativi ordinati rettilinei, è costituito da rettangoli, o barre, equidistanti, di larghezza arbitraria ma costante, di altezza proporzionale alla frequenza (assoluta o relativa) dell’attributo corrispondente ed in numero pari agli attributi del carattere. Tale diagramma, che può essere a colonne o a nastri, a seconda che si sviluppi rispettivamente in base ad un asse verticale o ad un asse orizzontale, ovvero che sia costituito da una successione di colonne o di nastri, si serve, anche se non necessariamente, di un sistema di riferimento cartesiano ortogonale, motivo per cui, se occorre rappresentare valori negativi, è possibile utilizzare anche il secondo ed il quarto quadrante di riferimento, a seconda che ci si trovi di fronte ad un ortogramma a nastri o a colonne. L’ortogramma, pertanto, è caratterizzato dall’avere un solo asse (verticale nel caso “a colonne” ed orizzontale nel caso “a nastri”) in scala graduata secondo l’unità di misura che si è scelta per rappresentare le frequenze o le intensità; sull’altro asse, invece, figurano le modalità (qualitative) equidistanti per convenzione. Tale tipo di grafico viene usato, quindi, per le serie storiche, geografiche e per altri tipi di serie. DIAGRAMMA A BARRE O ORTOGRAMMA Il diagramma a colonne di seguito riportato, ad esempio, illustra quali mezzi sono prevalentemente usati dai ragazzi di una classe per recarsi a scuola: In bicicletta 10 In auto 7 A piedi 4 Diagramma a colonne DIAGRAMMA A BARRE O ORTOGRAMMA Il diagramma a nastri di seguito riportato, invece, illustra i dati relativi ad un’indagine svolta in una classe sugli sport praticati dagli allievi: Calcio 10 Basket 6 Volley 5 Nuoto 2 Nessuno sport 4 Diagramma a nastri DIAGRAMMA A BARRE O ORTOGRAMMA Data la seguente distribuzione degli studenti italiani secondo il grado delle scuole, in un particolare anno scolastico, completare la tabella e graficare l’andamento delle F.A., delle F.% e delle F.C.: Grado delle scuole N.alunni iscritti (F.A.) Scuole materne 1.577.696 Scuole elementari 2.859.379 Scuole medie 1.775.009 Scuole superiori 2.543.750 Tot. 8.755.834 F.R. F.% F.C.A. F.C.R. DIAGRAMMA A BARRE O ORTOGRAMMA Sfruttando le varie definizioni, si ha: Grado delle scuole N.alunni iscritti (F.A.) F.R.= F.A./N. F.% = F.R.*100 F.C.A= F.A.x+F.A.y F.C.R.= F.R.x+F.R.y Scuole materne 1.577.696 0,18 18,0 1.577.696 0,18 Scuole elementari 2.859.379 0,33 32,7 4.437.075 0,51 Scuole medie 1.775.009 0,20 20,3 6.212.084 0,71 Scuole superiori 2.543.750 0,29 29,1 8.755.834 1,00 Tot. 8.755.834 1,00 100,0 DIAGRAMMA A BARRE O ORTOGRAMMA Si tratta di una serie (carattere qualitativo) e le modalità del carattere indicano i vari gradi delle scuole. Il grafico delle F.A., pertanto, deve riuscire a mettere in evidenza le diverse modalità, allo scopo proprio di poter effettuare un confronto, in modo chiaro ed evidente. La scelta ideale, quindi, ricade sul grafico a barre o ortogramma. N.alunni iscritti (F.A.) Grado delle scuole Tot. Scuole superiori Scuole medie Scuole elementari Scuole materne 0 1.000.000 2.000.000 3.000.000 4.000.000 5.000.000 6.000.000 7.000.000 8.000.000 9.000.000 10.000.000 N.alunni iscritti (F.A.) DIAGRAMMA A BARRE O ORTOGRAMMA La scelta ideale, invece, per grafica le F.% è il grafico a torta. Scuole superiori 29,1 Scuole medie 20,3 Scuole materne 18,0 Scuole elementari 32,7 CARTOGRAMMA Tale rappresentazione grafica, che si avvale di carte geografiche o topografiche dei luoghi in cui si manifesta il fenomeno investigato ed usato per rappresentare le serie territoriali, è caratterizzata, a seconda delle varie zone, da una diversa colorazione, in base all’intensità del fenomeno stesso: vengono, infatti, aggiunti dei segni (a seconda dell’intensità), tratteggiate le zone interessate, utilizzate linee concentriche simili a curve di livello o, più semplicemente, diverse gradazioni del medesimo colore, facendo corrispondere ad ogni colore una ben precisa intensità, come illustrato nel seguente diagramma: CARTOGRAMMA Al cartogramma, che consente di mettere in evidenza le relazioni esistenti tra le varie zone geografiche a maggiore o minore intensità del fenomeno, vengono spesso affiancati, per un’ulteriore chiarezza, altri grafici contenenti informazioni aggiuntive, in modo tale che i dati inseriti siano maggiormente comprensibili a tutti. Il cartogramma di seguito riportato, fornito dall’Istituto Centrale di Statistica, illustra il numero di biglietti per cinematografo venduti, per abitante, nell’anno1975: IDEOGRAMMA O PICTOGRAMMA In tale rappresentazione grafica, molto approssimativa ma di comprensione abbastanza facile ed immediata, anche per i non esperti, e pertanto utilizzata per scopi pubblicitari e come mezzo di divulgazione, i dati vengono rappresentati attraverso oggetti che ricordano il fenomeno da studiare, ovvero l’unità di misura viene sostituita da un’icona attinente il fenomeno oggetto di analisi. L’ideogramma di seguito riportato, ad esempio, illustra i dati relativi alla produzione, in un certo anno, di quattro case automobilistiche: Ogni automobile rappresenta 1.000.000 di auto prodotte Wolkswagen 1.500.000 Fiat 2.000.000 Ford 3.000.000 Renault 2.500.000 Ideogramma DIAGRAMMA IN COORDINATE POLARI O GRAFICO RADAR Utilizzato per la rappresentazione di particolari serie storiche, dette cicliche, in quanto le modalità del carattere si ripetono dopo un certo periodo di tempo (giornaliere, settimanali, mensili, …), quali i fenomeni stagionali (quantità di pioggia, temperatura media, numero di matrimoni celebrati nell’ultimo anno, …), che ben si prestano a questo scopo, tale diagramma, che mostra il cambiamento e le frequenze di dati in relazione, sia ad un polo (o punto centrale), che tra loro, si costruisce nel modo seguente: - si fissa nel piano un punto O, detto polo, ed una semiretta orientata uscente da O, detta asse polare; si assume un determinato segmento come unità di misura e si fissa il senso antiorario come verso positivo delle rotazioni dell’asse polare intorno al polo O; - dal polo, si traccia una serie di cerchi concentrici, la cui rispettiva distanza dal centro esprime la misura dell’intensità del fenomeno; - si divide l’angolo giro in tante parti quante sono le modalità della serie; - segnando dei punti nei cerchi, si individuano le modalità e la frequenza del fenomeno; - sia che il fenomeno sia discreto sia che esso sia continuo, si uniscono i punti con segmenti di retta. DIAGRAMMA IN COORDINATE POLARI In questo modo, ogni punto del piano può essere individuato da due coordinate: il raggio vettore , che rappresenta la distanza del punto P dal polo O, e l’angolo , denominato argomento, formato dal semiasse di riferimento con il segmento OP. Il valore rappresenta la frequenza o l’intensità corrispondente; l’ampiezza , invece, è in relazione al numero delle modalità. P y O asse polare O P = (x, y) = (, ) x dove (x, y) rappresentano le coordinate cartesiane del punto P e (, ) le corrispondenti coordinate polari. DIAGRAMMA IN COORDINATE POLARI Nel seguente diagramma, ad esempio, è riportato l’andamento medio giornaliero della pressione arteriosa sistolica di 45 individui, prima e dopo un trattamento antiipertensivo: DIAGRAMMA IN COORDINATE POLARI Nel successivo diagramma, invece, è riportato l’andamento del numero di viaggi distribuiti nei vari mesi dell’anno secondo la seguente tabella: MESI NUMERO VIAGGI Gennaio 89 Febbraio 45 Marzo 43 Aprile 58 Maggio 61 Giugno 87 Luglio 105 Agosto 120 Settembre 118 Ottobre 91 Novembre 40 Dicembre 73 Si tracciano tante semirette, con origine nel polo O, quante sono le modalità del carattere, in modo che gli angoli tra le varie semirette siano uguali, e sulle semirette, a partire dal polo O, si riportano i dati. I punti così ottenuti si collegano con una spezzata (grafico radar). STEREOGRAMMA O DIAGRAMMA IN 3D z frequenze È la più nota rappresentazione grafica di una distribuzione doppia dalla quale si desumono le frequenze riguardanti classi di modalità dei due caratteri x ed y. Per ottenere uno stereogramma si riportano su un asse le classi di modalità relative ad x, su un altro asse quelle relative ad y e su un terzo asse, disposto perpendicolarmente al piano cartesiano definito dagli altri due assi, le frequenze corrispondenti, ottenendo alla fine un insieme di parallelepipedi contigui in cui le dimensioni delle basi sono pari all’ampiezza delle classi ed i volumi uguali o proporzionali alle frequenze. P O x modalità di y y y STEREOGRAMMA O DIAGRAMMA IN 3D Nel seguente diagramma, ad esempio, sono riportati i numeri del personale medico, personale paramedico, personale tecnico, operai tecnici e personale di altre categorie di un ospedale di una determinata città: STEREOGRAMMA O DIAGRAMMA IN 3D Nel diagramma successivo, invece, sono riportati i laureati in Economia secondo il voto di laurea e secondo il tempo impiegato per trovare lavoro, in base alla seguente tabella: VOTO TEMPO IMPIEGATO 6 mesi 12 mesi 18 mesi 24 mesi 81-85 6 5 3 3 86-90 14 5 3 4 91-95 8 2 1 5 96-100 11 8 3 2 101-105 2 3 2 4 106-110 11 10 2 8 110 e lode 6 2 0 2 STEREOGRAMMA O DIAGRAMMA IN 3D 14 12 frequenza 10 8 6 4 2 0 GRAFICO A RAMI E FOGLIE Tale tipologia di rappresentazione, detta anche Stem and leaf plot, introdotta da John Wilder Tukey (16 giugno 1915 – 26 luglio 2000), usata per caratteri quantitativi, consiste in una forma “ibrida” tra una tabella di dati ed il corrispondente grafico: presentando i valori numerici delle distribuzioni in ogni singola frequenza, infatti, permette di esaminare le caratteristiche di distribuzioni di frequenza costituite da uno scarso numero di osservazioni. GRAFICO A RAMI E FOGLIE Per realizzare tale grafico occorre dividere, dapprima, ogni singolo dato in due parti, una più significativa, detta ramo, ed una meno significativa, detta foglia, e successivamente costruire una tabella a due colonne, riportando, nella prima, la cifra più significativa (centinaia e decine) e, nella seconda, quella meno significativa (unità). Ad esempio, se si considerano le seguenti cifre: 12 13 32 33 45 56 è possibile, dapprima, dividerle, separando le decine dalle unità, secondo la seguente tabella: RAMO FOGLIA 1 2 1 3 3 2 3 3 4 5 5 6 GRAFICO A RAMI E FOGLIE e poi raggruppare i rami posizionando le relative foglie una accanto all’altra, come di seguito riportato: RAMO FOGLIA 1 23 3 23 4 5 5 6 GRAFICO A RAMI E FOGLIE Se ora, invece, si considera la seguente serie di dati: 12.3 13.5 12.7 14.9 14.8 15.7 19.5 11.4 17.6 18.8 17.6 18.4 16.2 16.3 16.2 allora la rappresentazione ramo-foglia sarà data da: RAMO FOGLIA 11 4 12 37 13 5 14 89 15 7 16 223 17 66 18 48 19 5 RACCOMANDAZIONI GENERALI - - - - Ogni grafico deve contenere in sé tutte le indicazioni necessarie per la sua esatta interpretazione, indipendentemente dal testo (titolo chiaro dell’oggetto della rappresentazione, l’epoca a cui si riferiscono i dati, l’ambito territoriale e la fonte, le scale di misura adottate). Il grafico deve poter essere riprodotto ed usato in modo autonomo dal testo originario; quando è possibile occorre accompagnarlo con i dati che esso rappresenta. I numeri e le parole scritte sul grafico devono essere leggibili senza girare il foglio. Se si vogliono rappresentare più diagrammi nello stesso grafico conviene scegliere: un segno diverso per ogni diagramma; indicare, accanto ad ogni curva, il fenomeno a cui essa si riferisce; segnare ai margini del grafico le scale adottate. Si deve evitare che la rappresentazione risulti aggrovigliata o confusa; si consiglia di ricorrere eventualmente a più grafici paralleli, con scale spostate. RACCOMANDAZIONI GENERALI - - - Nei grafici cartesiani è opportuno disegnare un reticolato a linee spezzate in modo da agevolare l’occhio nella lettura. Scegliere giudiziosamente il metodo di rappresentazione in modo che sia il più adatto al tipo di tabella data; quando si possono applicare parallelamente più metodi, dare la preferenza a quello più semplice. Eseguire la revisione di controllo per evitare errori matematici di riproduzione. Sugli assi occorre sempre indicare esattamente il significato delle variabili e le unità di misura. Le amputazioni di scala devono essere indicate con interruzioni degli assi. Rendere agevole il confronto di grafici tra loro collegati affiancandoli ed utilizzando le stesse scale. Fissare le scale in maniera che le relazioni approssimativamente lineari formino un angolo di 45° con l’asse delle ascisse. La tecnica di rappresentazione non deve influenzare il lettore del grafico. INDICI STATISTICI Nella ricerca scientifica e tecnologica è importante misurare la reale efficacia di interventi sul sistema oggetto di studio, ovvero valutare gli effetti complessivi indotti da una causa nota, pur nella mutevolezza ed instabilità dei risultati individuali. A tal riguardo, la Statistica ha proposto numerosi indici statistici, aventi quale obiettivo proprio la misurazione di due componenti del fenomeno oggetto di studio e di interesse scientifico: la consistenza della sistematicità, cioè la centralità, ovvero l’attitudine che hanno i fenomeni ad assumere tendenzialmente una certa dimensione all’osservazione, e la variabilità o mutabilità, cioè la dispersione, ovvero l’attitudine che hanno i fenomeni ad assumere dimensioni e tendenze diverse all’osservazione, nel tempo e nello spazio. In particolare, la centralità è misurata dai cosiddetti indici di posizione (o indici di tendenza centrale o indicatori di posizione o misure di tendenza centrale) o medie statistiche o ancora più semplicemente medie, in grado di esprimere e sintetizzare la posizione di una distribuzione di frequenza mediante un valore reale rappresentativo della globalità del fenomeno, riassumendone gli aspetti ritenuti più importanti. INDICI STATISTICI Tali indici si possono ricavare effettuando operazioni che coinvolgono: - tutti i termini della serie; in tal caso gli indici di posizione maggiormente usati, denominati medie analitiche o di calcolo, sono la media aritmetica Ma, la media geometrica Mg, la media armonica Mh e la media quadratica Mp tra le quali sussiste la seguente relazione: Mh M g Ma M p - solo alcuni termini della serie, che si differenziano dagli altri per particolari caratteristiche; in tal caso gli indici di posizione maggiormente usati, denominati medie posizionali o di posizione o lasche, sono la mediana, la moda, i quartili. INDICI STATISTICI La media aritmetica semplice, denominata semplicemente media ed indicata con Ma, usata per riassumere con un solo numero un insieme di n dati relativi ad un fenomeno misurabile, ovvero in presenza di variabili quantitative qualora la differenza tra un dato ed il precedente risulti costante, è ottenuta dividendo la somma di tutti gli n valori per il numero n di osservazioni; in formule è data da: 1 n x1 x2 ... xn M a xi n i 1 n avendo indicato con ni le frequenze delle xi. La media aritmetica di n numeri, dunque, è quel numero che, sostituito a ciascuno di essi, lascia invariata la somma totale e non può essere maggiore del valore più grande né minore del valore più piccolo. INDICI STATISTICI Esempio La media aritmetica dei seguenti 5 = n numeri: x1 = 10; x2 = 13; x3 = 9; x4 = 7; x5 = 12 è data da: 15 1 1 51 M a xi 10 13 9 7 12 51 10, 2 5 i 1 5 5 5 Si osservi che, sostituendo a ciascun xi (i = 1, …, 5) il valore della media Ma e sommando i risultati, si ottiene; 10, 2 10, 2 10, 2 10, 2 10, 2 5 M a 5 10, 2 51 che è proprio la somma degli xi, 10 + 13 + 9 + 7 + 12 = 51. INDICI STATISTICI La media aritmetica ponderata, invece, è ottenuta dividendo la somma di tutti gli n valori, moltiplicati per le rispettive frequenze, per il numero n di osservazioni; in formule è data da: 1 s x1n1 x2 n2 ... xn ns M a xi ni n i 1 n avendo indicato con ni le frequenze delle xi e con n la somma delle ni. Tale denominazione deriva dal fatto che, a volte, le ni non esprimono le frequenze ma opportuni pesi di ponderazione che tengono conto di altri aspetti rilevanti: -basti pensare, ad esempio, ai prezzi delle merci che vengono ponderati con cifre che esprimono le quantità vendute di ciascuna merce, allo scopo proprio di tener conto del valore globale (prezzo per quantità) degli scambi effettuati sul mercato considerato. INDICI STATISTICI Esempio Se i voti riportati in matematica da n = 20 alunni di una scuola media di secondo grado sono riassunti nella seguente tabella: Voti xi Alunni ni 3 1 4 2 5 5 6 7 7 4 8 1 Tot. 20 allora la media aritmetica è data da: 1 s 3 1 4 2 5 5 6 7 7 4 8 1 114 M a xi ni 5,7 n i 1 20 20 INDICI STATISTICI Se poi la v.s. X è divisa in intervalli, si può fare l’ipotesi che le intensità di X di ogni intervallo siano concentrate nel valore centrale della classe, in modo da riportarsi al caso discreto. Esempio Calcolare la statura media (aritmetica) dei coscritti italiani nati nel 1955. Classi di statura (in cm) Valori centrali Frequenze delle classi ni xi Prodotti xi * ni meno d1 150 145 300 43500 150 ---160 155 12200 1891000 160 ---170 165 120800 19932000 170 ---180 175 160400 28070000 180 e oltre 185 36300 6715500 330000 56652000 Tot. 1 s 56652000 M a xi ni 171,67cm n i 1 330000 La sostituzione delle singole classi con il valore centrale introduce un errore di approssimazione poco rilevante, anche se, tuttavia, si perde informazione. INDICI STATISTICI La media aritmetica, quindi, rappresenta quel valore che si può attribuire singolarmente a ciascuna unità statistica del collettivo lasciando invariato l’ammontare complessivo del carattere. La media aritmetica di n numeri, dunque, rappresenta il baricentro dei dati e, quindi, propone un valore che equi-ripartisce il fenomeno tra le unità statistiche, pervenendo così a decisioni nelle quali contano, a parità numerica, gli estremi molto più dei valori centrali: la media aritmetica, infatti, costituisce un indice di equilibrio generale. Essendo, inoltre, la media statistica per eccellenza, consente un’ottima correzione degli errori accidentali commessi in una rilevazione statistica, risultando così utile, nonostante la sua scarsissima resistenza ai valori eccezionali, in tutti i campi della scienza e della tecnica in cui vengono effettuate misurazioni di qualunque genere. Se la media coincide con una delle modalità viene detta media effettiva o reale; se, invece, non coincide con una delle modalità è detta media di conto. INDICI STATISTICI La media geometrica semplice, usata quando le variabili quantitative risultano non lineari ma ottenute da un prodotto o da un rapporto di valori lineari non negativi e diversi da zero, si ottiene estraendo la radice n-esima del prodotto degli n termini; in formule è data da: n M g n xi n x1 x2 ... xn i 1 dove è il simbolo di prodotto. La media geometrica, considerata come quel valore che sostituito a ciascuno degli n dati ne lascia inalterato il prodotto, è usata soprattutto quando i dati non sono numerosi, i termini della distribuzione presentano valori molto differenti tra loro ed il rapporto tra un dato ed il precedente risulta costante (ad esempio, la determinazione del tasso di interesse medio equivalente alla sequenza dei tassi variabili, nel regime di capitalizzazione composta). INDICI STATISTICI Esempio Uno studente ha sostenuto 6 = n esami riportando i seguenti voti: x1 = 21; x2 = 20; x3 = 24; x4 = 30; x5 = 28; x6 = 25 La media geometrica dei voti è data da: 6 M g 6 xi 6 21 20 24 30 28 25 6 211680000 24, 41 i 1 INDICI STATISTICI La media geometrica ponderata è usata, invece, qualora ci si trovi in presenza di una distribuzione costituita da n osservazioni e dalle relative frequenze; in formule, è data da: s M g n xini n x1n1 x2n2 ... xsns i 1 dove è il simbolo di prodotto ed n = n1 + n2 + … + ns. Ogni termine, dunque, viene ponderato, ad esponente, con la relativa frequenza. Analogamente, si può utilizzare la seguente formula: M g 10 s n log x i i 1 i n INDICI STATISTICI Esempio La seguente tabella riporta i voti ottenuti da un gruppo di studenti all’esame di Matematica: Voti xi Numeri di studenti ni 21 5 24 6 26 10 30 4 Tot. 25 La media geometrica ponderata è data da: M g 25 215 246 2610 304 25 4084101 191102976 141167095653376 810000 25,00479 INDICI STATISTICI Analogamente, utilizzando i logaritmi, si può impostare la seguente tabella: Voti xi Numeri di studenti ni Logaritmi dei voti logxi Prodotti ni logxi 21 5 1,322219 6,611096 24 6 1,380211 8,281267 26 10 1,414973 14,149733 30 4 1,4771121 5,908485 Tot. 25 34,950582 Essendo, poi, 4 ni log xi i 1 n 34,950582 1,398023297 25 si ha la seguente media geometrica ponderata: M g 101,398023297 25,00479 INDICI STATISTICI La media armonica semplice, usata nello studio di variabili quantitative tra loro inversamente proporzionali, ovvero quando si deve trovare il valore medio, non del fenomeno considerato, ma di un fenomeno che è l’inverso del primo (ad esempio, prezzo di un bene e potere di acquisto della moneta, interesse effettivo che cresce al decrescere del costo del titolo, …), è pari al reciproco della media aritmetica dei reciproci dei termini; in formule è data da: n n Mh n 1 1 1 1 ... x 1 x2 xn i 1 xi La media armonica, dunque, è quel valore tale che il suo reciproco, sostituito ai dati, che devono essere tutti positivi, fa rimanere invariata la somma dei reciproci dei dati stessi: viene usata, infatti, per mediare rapporti di tempo. INDICI STATISTICI Esempio La media armonica dei seguenti 5 = n numeri: x1 = 10; x2 = 13; x3 = 9; x4 = 7; x5 = 12 è data da: 5 5 Mh 5 1 1 1 1 1 1 10 13 9 7 12 i 1 xi 5 5 16380 5 9,72 1638 1260 1820 2340 1365 8423 8423 16380 16380 INDICI STATISTICI La media armonica ponderata, invece, è data da: n n Mh s ns ni n1 n2 ... x 1 x2 xs i 1 xi dove n = n1 + n2 + … + ns. La media armonica, dunque, è pari al valore reciproco della media aritmetica dei reciproci dei termini. INDICI STATISTICI Esempio Si consideri la seguente tabella la seguente tabella: Voti xi Numeri di studenti ni 20 2 21 3 22 6 23 2 24 1 Tot. 14 INDICI STATISTICI Ne segue, allora, che la media armonica ponderata è data da: n 14 Mh s 22 2 3 6 2 1 ni 20 21 22 23 24 i 1 xi INDICI STATISTICI La media quadratica semplice si ottiene estraendo la radice quadrata della media aritmetica dei quadrati degli n termini; in formule è data da: 2 2 2 n 1 x x ... x 2 n M 2 x1 , x2 ,..., xn 2 xi2 2 1 n i 1 n Tale media, denominata anche media di precisione, usata tutte le volte che alle differenze tra i termini ed il valore medio si dà il significato di deviazione o errore del valore esatto, ovvero nei casi in cui alcuni termini considerati risultano negativi e si desidera quindi eliminare la loro influenza, trova applicazione soprattutto nell’ambito della teoria degli errori. Generalizzando ora il concetto di media quadratica, si può definire la cosiddetta media di potenza di indice t data da: t t t n 1 x x ... x n M t x1 , x2 ,..., xn t xit t 1 2 n i 1 n INDICI STATISTICI Esempio La media quadratica dei seguenti 10 = n numeri: x1 = 1; x2 = 1; x3 = 2; x4 = 2; x5 = 3; x6 = 3; x7 = 4; x8 = 4; x9 = 5; x10 = 5 è data da: 1 10 2 M 2 x1 , x2 ,..., x10 xi 10 i 1 1 2 2 1 1 22 22 32 32 42 42 52 52 10 1 1 1 4 4 9 9 16 16 25 25 10 1 1 1 4 4 9 9 16 16 25 25 10 110 11 3,31 10 INDICI STATISTICI La media quadratica ponderata, invece, è data da: 2 2 2 s 1 x n x n ... x 2 1 1 2 2 n ns 2 2 M 2 x1 , x2 ,..., xn xi ni n i 1 n dove n è sempre la somma delle ni. La precedente espressione, generalizzata alle potenze di indice t, diventa: t t t s 1 x n x n ... x t 1 1 2 2 n ns t t M t x1 , x2 ,..., xn xi ni n i 1 n dove n è sempre la somma delle ni. INDICI STATISTICI La mediana o valore mediano Me è quell’indice di posizione che, una volta ordinate in senso crescente le osservazioni di un fenomeno, divide la distribuzione in due gruppi di uguale numerosità: al primo gruppo, infatti, appartengono le osservazioni uguali o inferiori alla mediana; al secondo gruppo, invece, quelle superiori o uguali alla mediana. La mediana, dunque, è la modalità dell’unità statistica che occupa il posto centrale nella distribuzione ordinata delle osservazioni. Dato, cioè, un insieme costituito da n intensità (x1, x2, …, xn), la determinazione della mediana è diversa a seconda che n sia pari o dispari, precisamente si ha: - se n è pari, la mediana è data dalla semisomma delle intensità individuate dalle due posizioni centrali, C1 e C2, ovvero dalla loro media aritmetica: C1 xn , C2 xn 2 - 2 1 Me C1 C2 2 se n è dispari, la mediana è data dal valore che occupa la posizione centrale nella distribuzione dei valori posti in graduatoria: M e xn1 2 INDICI STATISTICI Esempio La mediana delle seguenti intensità (n = 7, dispari): 3; 15; 9; 2; 6; 12; 5 si ottiene ordinando dapprima le intensità in ordine crescente, x1 = 2; x2 = 3; x3 = 5; x4 = 6; x5 = 9; x6 = 12; x7 = 15 e poi considerando l’intensità che occupa il posto centrale, essendo n dispari: M e x4 6 INDICI STATISTICI Esempio La mediana delle seguenti intensità (n = 8, pari): 7; 16; 2; 3; 9; 12; 15; 5 si ottiene ordinando dapprima le intensità in ordine crescente, x1 = 2; x2 = 3; x3 = 5; x4 = 7; x5 = 9; x6 = 12; x7 = 15; x8 = 16 e poi considerando le intensità che occupano i due posti centrali, essendo n pari: C1 x8 x4 7, C2 x8 2 2 1 x5 9 7 9 16 Me 8 2 2 INDICI STATISTICI Se, invece, si ha una distribuzione di frequenze, per calcolare la mediana, occorre determinare le frequenze cumulate: indicando con n la somma delle frequenze, se n è pari, la mediana è data da n 2 Se, invece, n è dispari, la mediana è data da: n 1 2 INDICI STATISTICI Esempio Se si effettua l’indagine su un numero di figli su un campione di famiglie, come riportato nella seguente tabella: Figli xi 0 1 2 3 4 5 6 Tot. F.A ni 3 8 7 4 1 1 1 25 F.C.A. 3 11 18 22 23 24 25 essendo n dispari, la mediana è il valore corrispondente a n 1 25 1 26 13 2 2 2 ovvero la mediana è 2 poiché 11<13<18. INDICI STATISTICI La mediana, pertanto, si può calcolare per tutte quelle variabili le cui modalità possono essere ordinate, ovvero per le variabili qualitative ordinali, e per tutte le variabili quantitative: risulta, infatti, più conveniente usarla qualora si voglia esprimere il valore centrale di distribuzioni di caratteri che non possono essere misurati “esattamente” (ad esempio, i caratteri psicologici graduabili) oppure qualora non si possa far riferimento alla distribuzione normale, proprio grazie alla sua capacità di essere rappresentativa della posizione della distribuzione anche in presenza di valori estremi notevolmente diversi da tutti gli altri. La mediana, dunque, minimizza i costi complessivi ed è soprattutto resistente ai valori estremi: rappresenta, infatti, un indice per decisioni che implicano costi elevati nei casi estremi. INDICI STATISTICI La moda o norma MO di una distribuzione di frequenza X, calcolabile per caratteri sia quantitativi sia qualitativi, non risentendo dei valori estremi, rappresenta la modalità, o classe di modalità, caratterizzata dalla massima frequenza (assoluta o relativa) o densità di frequenza, ovvero il valore numerico che, nella distribuzione di frequenza, è maggiormente presente rispetto agli altri. A tal riguardo occorre evidenziare che la moda è una modalità, non una frequenza. Se si rappresenta, pertanto, la distribuzione di frequenza in termini grafici, si può affermare che la moda corrisponde al picco della distribuzione (ad esempio in un grafico a colonne o a nastri, la colonna più alta o il nastro più lungo individua la moda della distribuzione) che, di conseguenza, risulterà zeromodale se non ammette alcun valore modale, ovvero nessun picco, unimodale se ne ammette uno solo (in tal caso la moda ha significato di sintesi), bimodale se ne ammette due, trimodale se ne ammette tre, … Per poter determinare, quindi, la classe modale risulta opportuno ricorrere all’istogramma, individuando l’intervallo di altezza massima, ovvero il punto di massimo della curva; la classe con la maggiore densità media, corrispondente proprio all’altezza dell’istogramma, sarà quella modale. La moda, dunque, minimizza gli scontenti ed è utilizzata in tutte quelle situazioni ove il consenso ed il numero delle singole unità ha significato per la decisione: la moda, infatti, è un indice utile per individuare la modalità più rappresentativa. INDICI STATISTICI Esempio La moda della seguente successione di termini (n = 13): x1 = 3; x2 = 5; x3 = 9; x4 = 3; x5 = 5; x6 = 7; x7 = 3; x8 = 2; x9 = 9; x10 = 3; x11 = 4; x12 = 3; x13 = 6 è data dal termine che compare con maggiore frequenza, ovvero è MO = 3 perché compare 5 volte. Esempio Data la variabile X = numero di esami sostenuti da sei studenti ed osservati i seguenti valori: STUDENTI Nicola Mary Eleonora Beatrice Davide Christian ESAMI 30 19 8 7 27 10 Si può concludere che la variabile X non ha moda, ovvero è zero modale, essendo la moda definita come la modalità più frequente: non esiste, infatti, nessuna modalità (numero di esami) ripetuta più delle altre e tutte le modalità hanno la stessa frequenza assoluta pari ad uno studente. Qual è la modalità più alta? 30 Qual è la modalità più frequente? Nessuna in quanto tutte hanno la stessa frequenza pari ad 1. Per individuare la moda di una variabile, dunque, bisogna chiedersi in primo luogo qual è la variabile e poi quali sono le modalità e qual è la modalità con la frequenza più alta. INDICI STATISTICI Esempi v.s. discrete v.s. continue di uguale ampiezza Voti xi Numeri di studenti ni Voti xi Numeri di studenti ni 25 3 18---20 3 26 2 21---23 5 27 8 24---26 10 28 1 27---29 4 v.s. continue di diversa ampiezza Voti xi Numeri di studenti ni di Hi = ni / di 18---21 5 3 5/3 = 1,6 21---23 4 2 4/2 = 2 24---28 6 4 6/4 = 1,5 29---30 3 1 3/1 = 3 INDICI STATISTICI Si osservi che: - per caratteri discreti la moda si individua facilmente scorrendo lungo la colonna delle frequenze; - per caratteri continui, se le classi di modalità hanno tutte uguale ampiezza, la moda cade nella classe con maggiore frequenza; se le classi di modalità, invece, hanno ampiezza diversa, si divide ogni frequenza per l’ampiezza della rispettiva classe calcolando, così la densità di frequenza; la moda, poi, cade nella classe con maggiore densità di frequenza. INDICI STATISTICI I quantili sono le intensità che dividono, dopo aver ordinato i dati, una distribuzione di frequenza in un certo numero di parti uguali (ad esempio, la mediana è quel valore che divide in due parti uguali l’insieme delle unità ordinate per grandezza, ovvero la distribuzione è divisa, rispetto a tale valore, in due parti ognuna contenente il 50% delle unità). Se si divide la distribuzione in due parti si parla di terzili (il primo terzile è quello che lascia alla sua sinistra un terzo delle osservazioni e alla sua destra i rimanenti due terzi; il secondo terzile è quello che lascia alla sua sinistra i due terzi e alla sua destra un terzo rimanente). Se si divide la distribuzione in tre parti si parla di quartili (il primo quartile Q1 lascia alla sua sinistra il 25% dei casi e alla sua destra il rimanente 75%; il secondo quartile Q2, che coincide con la mediana, lascia alla sua sinistra il 50% dei casi e alla sua destra il rimanente 50%; il terzo quartile Q3 lascia alla sua sinistra il 75% dei casi e alla sua destra il rimanente 25%). Se si divide la distribuzione in nove parti si parla di decili, …, in novantanove parti si parla di centili, in cento parti si parla di percentili. INDICI STATISTICI Se X è un carattere con n modalità ordinate x1, x2, …, xn (x1 ≤ x2 ≤ … ≤ xn), per il calcolo dei quartili si procede in maniera analoga a quanto visto in precedenza per la mediana, considerando le posizioni degli elementi: - se n è pari: xn xn Q1 4 4 1 2 - se n è dispari: Q1 xn1 4 I quantili, dunque, si possono calcolare per tutte quelle variabili per le quali risulta possibile ordinarne le modalità, ovvero per variabili qualitative ordinali, oltre che per tutte le variabili quantitative. INDICI STATISTICI Esempio Date le seguenti intensità (n = 7, dispari): 20; 65; 2; 10; 37; 15; 3 il loro quartile Q1 si ottiene ordinando dapprima le intensità in ordine crescente: x1 = 2; x2 = 3; x3 = 10; x4 = 15; x5 = 20; x6 = 37; x7 = 65 e poi considerando, come primo quartile, l’intensità che occupa il posto: xn1 x71 x8 x2 3 Q1 4 4 4 Analogamente il terzo quartile Q3 si ottiene considerando l’intensità che occupa sempre il secondo posto partendo, però, dall’ultima osservazione, ovvero Q3 = x6 = 37. INDICI STATISTICI Esempio Date le seguenti intensità (n = 8, pari): 20; 65; 83; 10; 37; 15; 3; 2 il loro quartile Q1 si ottiene ordinando dapprima le intensità in ordine crescente: x1 = 2; x2 = 3; x3 = 10; x4 = 15; x5 = 20; x6 = 37; x7 = 65; x8 = 83 e poi considerando, come primo quartile, l’intensità che occupa il posto: xn x8 x2 3; xn 4 4 4 1 x8 4 1 x21 x3 10 Effettuando, infine, la semisomma tra tali numeri, si ottiene: 3 10 13 Q1 6,5 2 2 Analogamente il terzo quartile Q3 si ottiene considerando la semisomma delle intensità che occupano sempre il secondo ed il terzo posto partendo, però, dall’ultima osservazione, ovvero: 37 65 102 Q3 51 2 2 INDICI DI VARIABILITÀ Il campo di variazione o range R di una sequenza n di numeri x1, x2, …, xn si ottiene effettuando la differenza tra il dato più grande ed il dato più piccolo: R xmax xmin Il range, però, pur essendo molto semplice da calcolare, è poco significativo poiché tiene conto solo del valore più piccolo e di quello più grande, trascurando tutti gli altri valori. Può essere utile, ad esempio, in campo meteorologico quando viene indicata l’escursione termica. Il campo di variazione, pertanto, fornisce informazioni sulla distribuzione dei dati: - più R è piccolo, più i dati sono concentrati; - più R è grande, più i dati sono dispersi. INDICI DI VARIABILITÀ Lo scarto quadratico medio o deviazione standard di una sequenza di numeri x1, x2, …, xn rappresenta la media quadratica degli scarti dei dati dalla media aritmetica Ma; in formule è dato da: x1 M a x2 M a ... xn M a n 2 2 2 La varianza 2 di una sequenza n di numeri x1, x2, …, xn, invece, è il quadrato dello scarto quadratico medio; in formule è data da: x1 M a x2 M a ... xn M a Dev 2 2 2 2 n n essendo Dev la devianza, ovvero la somma dei quadrati degli scarti dei numeri dati dalla loro media aritmetica Ma. INDICI DI VARIABILITÀ Si osservi, però, che la varianza si può anche ottenere facendo la media dei quadrati meno il quadrato della media, ovvero in formule: - se i dati sono senza frequenze: n 2 x i 2 i 1 n M a2 - se i dati sono con frequenze: s 2 x i ni 2 i 1 s n ni i 1 M a2 INDICI DI VARIABILITÀ Esempio Data la seguente tabella: Valori xi F.A. ni 2 3 4 1 8 2 11 4 Tot. 10 Calcolare scarto quadratico medio e varianza. Si ha: Ma 2 3 4 1 8 2 11 4 7 10 INDICI DI VARIABILITÀ Ne segue che la varianza è data da: s 2 xi2 ni i 1 s ni 2 2 2 2 2 3 4 1 8 2 11 4 2 2 Ma 7 15 10 i 1 e lo scarto quadratico medio è dato da: 2 15 3,87 INDICI DI VARIABILITÀ Il coefficiente di variazione CV è una misura relativa (le precedenti sono tutte assolute) di dispersione ed è una grandezza adimensionale particolarmente utile quando si devono confrontare le distribuzioni di due gruppi con medie molto diverse o con dati espressi in scale differenti (ad esempio, confronto tra variazione del peso e variazione dell’altezza). In formule, è dato da: CV 100 % Ma INDICI DI VARIABILITÀ Lo scostamento semplice medio S(Ma) consiste nel calcolare la distanza di tutti i dati dalla media e fare la media aritmetica di tali distanze. In formule, è dato da: - se i dati sono senza frequenze: n xi M a S M a i 1 n - se i dati sono con frequenze: s xi M a ni S M a i 1 s n ni i 1 INDICI DI VARIABILITÀ Esempio Se si considerano le seguenti valutazioni delle tre prove degli esami di stato riportate da quattro studenti: STUDENTI Nicola Mary Eleonora Giacomo PRIMA PROVA 3 5 8 9 SECONDA PROVA 2 7 8 8 TERZA PROVA 6 7 6 6 si ha: M a 1 M a 2 M a 3 6, 25 INDICI DI VARIABILITÀ da cui gli scarti semplici medi delle tre prove sono rispettivamente: S M a 1 3 6, 25 5 6, 25 8 6, 25 9 6, 25 3, 25 1, 25 1,75 2,75 9 2, 25 4 4 4 S M a 2 2 6, 25 7 6, 25 8 6, 25 8 6, 25 4, 25 0,75 1,75 1,75 8,5 2,125 4 4 4 S M a 3 6 6, 25 7 6, 25 6 6, 25 6 6, 25 0, 25 0,75 0, 25 0, 25 1,5 0,375 4 4 4 Si può osservare, quindi, che nella prima prova lo scarto, pari a 2,25 (ovvero i valori della sequenza si discostano mediamente di 2,25 dalla media), è superiore rispetto a quello della terza prova, i dati sono più dispersi ed i risultati più eterogenei; nella terza prova, in cui lo scarto è pari a 0,375, invece, i dati sono più concentrati ed i risultati più omogenei. La distribuzione della prima prova, inoltre, risulta diversa da quella della seconda prova. Dunque, più S(Ma) è piccolo, più i dati sono concentrati, più S(Ma) è grande più i dati sono dispersi. Inoltre, S(Ma) è espresso nella stessa unità di misura dei dati ed S(Ma) tiene conto di tutti i dati della distribuzione.