Corso di Laurea: Diritto per le Imprese e le istituzioni a.a. 2016-17 Statistica Statistica Descrittiva 2 Lezioni: 3, 4 Docente: Alessandra Durio Contenuti • La rilevazione dei dati: variabili e mutabili statistiche • Primi strumenti di sintesi: Distribuzioni di frequenze • Rappresentazioni Grafiche • Misure di posizione: quantili e mediana Docente: Alessandra Durio 2 Sintetizziamo le prime fasi di un’indagine di statistica descrittiva: • Vogliamo studiare un FENOMENO di MASSA • Dobbiamo individuare la POPOLAZIONE di riferimento • Determinare i CARATTERI che forniscono le informazioni circa il fenomeno • Scegliere la scala di misura e individuare l’INSIEME DELLE MODALITA’ di ciascun carattere SOLO ORA SI PUO’ RILEVARE I CARATTERI su ciascuna unità statistica Docente: Alessandra Durio 3 La rilevazione di un carattere sugli elementi della popolazione Rilevare un carattere sulla popolazione (cioè misurare come questo si esprime su ogni unità statistica) induce una corrispondenza tra gli elementi dell’insieme Ω e quelli dell’insieme M delle modalità del carattere Ω M ω1 ω2 ωN € ωα € € € Docente: Alessandra Durio ω3 • m4 • m3 • m2 • m1 4 La Variabile e la Mutabile Statistica DEFINIZIONE: L’applicazione che associa a ciascuna unità ωα del collettivo Ω uno ed un solo elemento dell’insieme M delle modalità del carattere viene detta: • VARIABILE Statistica se gli elementi di M sono numeri (cioè se il carattere e quantitativo) • MUTABILE Statistica: se gli elementi di M sono (cioè se il carattere e qualitativo) Docente: Alessandra Durio 5 Insieme dei dati individuali L’applicazione generata dalla rilevazione del carattere sulla popolazione dà luogo a una VARIABILE Statistica se il carattere è QUANTITATIVO e a una MUTABILE Statistica se il carattere è QUALITATIVO. Disporre di una Variabile (o di una Mutabile) statistica significa possedere l’insieme dei valori che questa assume su ciascuna unità statistica,cioè dell’ insieme dei dati individuali che è composto da N elementi che saranno numeri nel caso di Variabile Statistica o attributi nel caso di Mutabile. • Data la V.S. X indichiamo il suo insieme di dati individuali con: { x˜α }α =1,...,N = { x˜1, x˜ 2,..., x˜ N } Insieme formato da numeri appartenenti all’insieme delle modalità del carattere non necessariamente tutti diversi • Data la M.S. A indichiamo il suo insieme di dati individuali con: € {a˜α }α =1,...,N = {a˜1, a˜ 2,..., a˜ N } Docente: Alessandra Durio Insieme formato da attributi appartenenti all’insieme delle modalità del carattere non necessariamente tutti diversi 6 ESEMPIO: MUTABILE STATISTICA Popolazione: insieme delle fatture emesse nel mese di marzo ωα = Carattere: Giudizio sulla irregolarità di compilazione della fattura Insieme modalità del carattere M = {Nulla, Lieve, Grave, GraviSsima} Ω ω 6ω• • 10 ω 4• ω 9• ω1• ω 2• € ω 7• € € ω 8• ω 5• ω • € 3 € € € A • GS M€ • G INSIEME DEI DATI INDIVIDUALI DELLA MUTABILE STATISTICA • L • N {a˜α }α =1,...,N = {a˜1, a˜ 2,..., a˜10} = {L,N,N,L,N,GS,N,N,L,GS} Docente: Alessandra Durio 7 ESEMPIO: VARIABILE STATISTICA discreta Popolazione: insieme delle fatture emesse nel mese di marzo Carattere: Numero di irregolarità della fattura Insieme modalità del carattere M = {0, 1, 2,…,10} X Ω ω 6ω• • 10 ω 4• ω 9• ω1• ω 2• € ω 7• € € ω 8• ω 5• ω • € 3 € IR 10 8 9 7 6 4 3 1 5 € INSIEME DEI DATI INDIVIDUALI DELLA VARIABILE STATISTICA 2 0 € € { x˜α }α =1,...,N = { x˜1, x˜ 2,..., x˜10} = {2,0,0,1,0,7,0,0,1,6} Docente: Alessandra Durio 8 ESEMPIO: VARIABILE STATISTICA continua Popolazione: insieme delle fatture emesse nel mese di marzo Carattere: Importo della fattura Insieme modalità del carattere M = [0; 50] mila euro Ω ω 6ω• • 10 ω 4• ω 9• ω1• ω 2• € ω 7• € € ω 8• ω 5• ω • € 3 € € { y˜α }α =1,...,N € Y 500 INSIEME DEI DATI INDIVIDUALI DELLA VARIABILE STATISTICA 0 = { y˜1, y˜ 2 ,..., y˜10} = {250,120,100,150,180,450,110,85,270,350} Esercizio: ricavare dall’insieme dei dati individuali le frecce delle corrispondenze tra unità stastitiche e modalità del carattere Docente: Alessandra Durio 9 TUTTA L’INFORMAZIONE RILEVATA SUL COLLETTIVO E’ CONTENUTA IN QUESTA MATRICE Gli insiemi dei dati individuali di più variabili e mutabili statistiche rilevate sullo stesso collettivo possono essere organizzati nella MATRICE DEI DATI INDIVIDUALI. OGNI RIGA contiene tutta l’informazione rilevata su una unità statistica OGNI COLONNA contiene tutta l’informazione rilevata della variabile (o della mutabile) statistica GLI STRUMENTI DELLA STATISTICA DESCRITTIVA CONSENTONO DI SINTETIZZARE TALE 10 INFORMAZIONE Docente: Alessandra Durio La matrice dei dati individuali in excel Gli insiemi dei dati individuali della mutabile e delle variabili dei tre esempi precedenti in forma matriciale: Docente: Alessandra Durio 11 Contenuti • La rilevazione dei dati: variabili e mutabili statistiche • Primi strumenti di sintesi: Distribuzioni di frequenze • Rappresentazioni Grafiche • Misure di posizione: quantili e mediana Docente: Alessandra Durio 12 DISTRUBUZIONE DI FREQUENZE Come si e`detto, gli insiemi dei dati individuali di una v.s. (o di una m.s.) contengono tutte le informazioni circa i caratteri rilevati sulla popolazione. Un primo modo per visualizzare sinteticamente l’insieme dei dati individuali e` ricorrere alla distribuzione di frequenze assolute (o relative o cumulate). • Individuare tra i dati individuali quelli distinti Saranno tutti i k valori diversi che la v.s. (o la m.s.) ha assunto: MODALITA’ DISTINTE • Se possibile metterli in ordine crescente Indicando, per una v.s., la generica modalità distinta con si avrà: • Contare quante unità statistiche posseggono la stessa modalità Il numero di unità statistiche per cui la v.s. assume la stessa modalità distinta è detto frequenza assoluta • Formare le coppie modalità distinta frequenza assoluta Docente: Alessandra Durio associata x1 < x 2 < ... < x i < ... < x k € Distribuzione di frequenze assolute: un insieme di coppie che contiene sinteticamente tutta l’informazione {( x ,n )} i i i=1,...,k = {(x1,n1 ),(x 2 ,n 2 ),...,(x k ,n k )} 13 Esempio: DISTRIBUZIONE DI FREQUENZE ASSOLUTE v.s. numero di irregolarità fatture n4 = 1 Ω X ω 6• n2 = 2 € ω 4 • ω 9• 10 ω10• n 5 = 1 8 7= ω1• n = 1 3 € € €ω 2• ω 7• € n = 5 ω 8• € 1 ω 5• ω • € 3 € IR 4 5 6 =€ x4 9 x5 3 =€x 3 1 =€x 2 0 = x1 2 x˜1, x˜ 2,..., x˜10 } = {2,0,0,1,0,7,0,0,1,6} {€ I dati € diversi sono: 2,0,1,7,6 €Modalità distinte sono k=5: {0,1,2,6,7} Frequenze assolute € associate a ciascuna modalità {5,2,1,1,1} DISTRIBUZIONE DI FREQUENZE ASSOLUTE Docente: Alessandra Durio € {(x i,ni}i=1,...,k = {(0;5),(1;2),(2;1),(6;1),(7;1)} 14 Frequenze Relative e Cumulate DALLE FREQUENZE ASSOLUTE SI RICAVANO: FREQUENZE RELATIVE La proporzione di unità statistiche per cui la v.s. assume la stessa modalità ni fi = N x - Sono numeri compresi tra 0 e 1 e se moltiplicate per 100 forniscono la i percentuale di unità statistiche per cui la v.s. assume la stessa modalità. - La distribuzione€di frequenze relative è utile per confrontare v.s. (o m.s.) rilevate su collettivi diversi. La proporzione di unità statistiche per € cui la v.s. assume modalità minori o uguali a x j FREQUENZE CUMULATE ∑n Fj = i i=1 N j - Se moltiplicate per 100 forniscono la percentuale di unità statistiche per cui la v.s. assume modalità minori o uguali a . - Come vedremo in€seguito, la distribuzione di frequenze cumulate è utile per individuare i quantili. € Docente: Alessandra Durio 15 Esempio: DISTRIBUZIONI DI FREQUENZE RELATIVE E CUMULATE della v.s. numero di irregolarità fatture DISTRIBUZIONE DI FREQUENZE ASSOLUTE f1 = {(x i,ni )}i=1,...,k = {(0;5),(1;2),(2;1),(6;1),(7;1)} n1 5 n 2 n 1 n 1 = = 0.5 , f 2 = 2 = = 0.2 , f 3 = 3 = = 0.1, f 4 = 4 = = 0.1, N 10 N 10 N 10 N 10 DISTRIBUZIONE DI FREQUENZE RELATIVE€ € € f5 = n5 1 = = 0.1 N 10 {(x i, f i )}i=1,...,k = {(0;0.5),(1;0.2),(2;0.1),(6;0.1),(7;0.1)} € € Leggiamo ad esempio: il 20% delle fatture ha 1 irregolarità e il 10% ne ha 2. n1 5 n€ + n 7 n + n + n3 8 = = 0.5 , F2 = 1 2 = = 0.7 , F3 = 1 2 = = 0.8 , N 10 N 10 N 10 € n1 + n 2 + n 3 + n 4 9 n + n + n 3 + n 4 + n 5 10 F4 = = = 0.9 , F5 = 1 2 = = 1, N 10 N 10 € € F1 = € € DISTRIBUZIONE DI FREQUENZECUMULATE {(x i,Fi )}i=1,...,k = {(0;0.5),(1;0.7),(2;0.8),(6;0.9),(7;1)} € Leggiamo ad es.: il 70% delle fatture ha al più 1 irregolarità e l’ 80% ne ha al più 2. Ma anche che il 30% ha più di una irregolarità! Docente: Alessandra Durio € 16 La Tabella delle distribuzioni di frequenze Comunemente si utilizza una tabella per rappresentare in poco spazio e in modo facilmente leggibile tutte le distribuzioni di frequenze di una v.s. Leggendo congiuntamente la prima e la seconda colonna si ha la distribuzione di frequenze assolute, la prima e la terza colonna quella di frequenze relative ecc.. Tra i primi risultati delle indagini statistiche rese pubbliche compaiono le tabelle delle frequenze delle v.s. o delle m.s. analizzate. Un errore comune e` quello di considerare tale tabelle come punto iniziale dell’indagine eseguita piuttosto che come primo importante risultato di sintesi dei dati. Si tende a dimenticare che le tabelle di frequenze sono un modo di rappresentare la distribuzione di frequenze mentre va ricordato il significato degli elementi che le compongono. Docente: Alessandra Durio 17 Esempio: La Tabella delle distribuzioni di frequenze della v.s. numero di irregolarità Docente: Alessandra Durio 18 NON TUTTE LE TABELLE SONO DISTRIBUZIONI DI FREQUENZE Mentre una distribuzione di frequenze puo` sempre essere posta in forma tabellare, non tutte le tabelle pubblicate riflettono in effetti distribuzioni di frequenze. Docente: Alessandra Durio 19 RACCOGLIMENTO IN CLASSI (i) Trattando con v.s. continue spesso accade che l’insieme dei dati individuali sia costituito da elementi tutti diversi tra loro; di conseguenza le distribuzioni di frequenza non fornirebbero alcuna sintesi. In tali situazioni abitualmente si ricorre a raccogliere i dati individuali in classi di misure e si presenta la distribuzione di frequenze dei dati raccolti in classi. Vediamo con l’esempio della v.s. importo della fattura con insieme di dati individuali { x˜α }α =1,...,N = { x˜1, x˜ 2,..., x˜10} = {250,120,100,150,180,450,110,85,270,350} Le modalità distinte: { x , x ,..., x } = {85,100,110,120,150,180,250,270,350,450} Le frequenze assolute: {n ,n ,...,n } = {1,1,1,1,1,1,1,1,1,1} 1 2 10 1 2 10 € € LA DISTRIBUZIONE DI FREQUENZE NON SINTETIZZA Docente: Alessandra Durio 20 RACCOGLIMENTO IN CLASSI (ii) Raccogliere i dati individuali nelle tre classi: 0 −−| 100 € € 300 −−| 500 100 −−| 300 € LA DISTRIBUZIONE DI FREQUENZE CON DATI RACCOLTI IN CLASSI SINTETIZZA Si guadagna in sintesi ma si perde informazione!! Ad esempio, delle due fatture attribuite alla prima classe abbiamo perso l’importo esatto siamo certi che è compreso tra zero (escluso) e 100 compreso. Per entrambi gli importi sceglieremo il valore centrale di classe (50) per calcolare eventuali parametri di interesse. 21 Docente: Alessandra Durio Contenuti • La rilevazione dei dati: variabili e mutabili statistiche • Primi strumenti di sintesi: Distribuzioni di frequenze • Rappresentazioni Grafiche • Misure di posizione: quantili e mediana Docente: Alessandra Durio 22 Quale grafico per quale tipo di distribuzione? Visualizzare la distribuzione di frequenza attraverso un grafico consente di coglierne alcuni aspetti caratteristici in modo immediato, ad esempio individuare la modalità che viene assunta meno frequentemente e quella che si presenta più frequentemente o più in generale la FORMA della distribuzione. 23 Docente: Alessandra Durio DIAGRAMMA A TORTA E’ un grafico formato da un cerchio suddiviso in k spicchi le cui aree sono proporzionali alle frequenze associate a ciascuna modalità della mutabile statistica. Per disegnare il diagramma a torta della distribuzione di frequenze di una m.s., occorre stabilire l’angolo βi di ogni “spicchio”: dalla proporzione si ha βi : 360 = n i : N € ni βi = 360 = f i ⋅ 360 N ai € βi € € € Docente: Alessandra Durio 24 DIAGRAMMA A BARRE E` un grafico formato da k rettangoli non contigui posti sull’asse orizzontale con basi uguali e altezze proporzionali alle frequenze assolute (o relative) associate a ciascuna modalità distinta della mutabile statistica. ni n1 n2 USARE LE FREQUENZE RELATIVE PER IL CONFRONTO DI DUE DISTRIBUZIONI nk a1 a2 ... ai ... ak Il diagramma a barre può essere usato anche se il carattere è Docente: Alessandrain Durio sconnesso luogo della torta e viceversa. 25 GRAFICO A BASTONCINI E’ un grafico formato da k segmenti, paralleli all’asse delle ordinate, posizionati in ascissa in corrispondenza delle modalità xi e di altezza pari alle frequenze assolute (o relative) f2 fi f1 fk x1 Docente: Alessandra Durio x 2 ... x i ... x k Sfortunatamente i fogli elettronici non contemplano tra i grafici disponibili quello adatto per una v.s. di tipo discreto. Si può sopperire a tale mancanza usando, un diagramma a barre avendo l’accortezza di distanziare le barre e renderle il più piccolo possibile. 26 ISTOGRAMMA E’ un grafico formato da k rettangoli contigui ciascuno con base coincidente con una classe,e con area proporzionale alla frequenza assoluta della classe medesima. hi Areai = c⋅ n i € Ampiezza di classe wi Per disegnare un rettangolo si deve conoscere la base (è l’ampiezza di classe) e l’altezza (che si determina a partire dalla definizione di instogramma). Area = base ⋅ altezza = w i ⋅ hi n c ⋅ n i = w i ⋅ hi hi = i ⋅ c wi € che si sceglie a piacere. c è una costante di proporzionalità Docente: Alessandra Durio 27 Esempio: questo NON è un istogramma w1 = 100, h1 = 2 ⇒ A1 = 200 w 2 = 200, h2 = 6 ⇒ A2 = 1200 € € € Docente: Alessandra Durio w 3 = 200, h3 = 2 ⇒ A3 = 400 Le aree non sono proporzionali alle frequenze assolute con la stessa costante c di proporzionalità IL GRAFICO DA’ UNA RAPPRESENTAZIONE DISTORTA DELLA DISTRUBUZIONE DI FREQUENZE non tiene conto della diversa ampiezza di classe!! 28 Esempio: questo E’ un ISTOGRAMMA L’Area totale è pari a N=10 w1 = 100, h1 = 0.02 ⇒ A1 = 2 w 2 = 200, h2 = 0.03 ⇒ A2 = 6 € € € Docente: Alessandra Durio w 3 = 200, h3 = 0.01 ⇒ A3 = 2 Le aree sono proporzionali alle frequenze assolute costante di proporzionalità c=1 IL GRAFICO DA’ UNA RAPPRESENTAZIONE CORRETTA DELLA DISTRUBUZIONE DI FREQUENZE evidenzia la densitià di frequenza in ogni classe!! 29 Osservazioni sulla scelta della costante c Per disegnare un istogramma bisognerà determinare per ogni classe l’altezza del rettangolo secondo la formula: ni hi = ⋅ c wi La scelta del valore per c induce a istogrammi differenti caratterizzati da una diversa area totale. ni • se c=1 è Area totale=N è hi€ = wi • se c=1/N è Area totale=1 è hi = fi wi Osserviamo che alcune analisi statistiche € pubblicate riportano tra i risultati istogrammi con rettangoli di altezza pari alle frequenze assolute o relative. Tali grafici possono essere denominati istogrammi se e solo se le classi presentano ampiezza costante. € Quando l’ampiezza di classe è costante, cioè si ha imponendo c = w otteniamo imponendo c = w/N otteniamo Docente: Alessandra Durio hi = n i hi = f i wi = w per ogni i 30 Usare software dedicati può essere utile! Costruire un istogramma con Excel può non essere semplice e veloce (soprattutto se si vogliono classi di ampiezza differente). Con software statistici è possibile con pochi comandi ottenere istogrammi di una v.s. con dati raccolti in diversi numeri di classi così da valutare come sintetizzare i dati perdendo minor informazione possibile. Docente: Alessandra Durio 31 La funzione cumulativa delle frequenze relative di una v.s. discreta Se la v.s. è di tipo discreto possiamo rappresentare la distribuzione delle frequenze cumulate con un grafico di una funzione continua a tratti che possiede k punti di discontinuità (in corrispondenza delle modalità distinte della v.s.) nei quali compie un salto di ampiezza pari alla frequenza relativa. F(x) € Questa funzione può essere utile per il calcolo dei quantili!! Leggo dal grafico F(6)=0.9 come lo interpreto? Docente: Alessandra Durio 32 La funzione cumulativa delle frequenze relative di una v.s. con dati raccolti in classe Se la v.s. è di tipo continuo con dati raccolti in classi possiamo rappresentare la distribuzione delle frequenze cumulate con un grafico di una funzione spezzata continua crescente. Al limite superiore di ogni classe la funzione assume valore uguale alla frequenza cumulata della classe. F(x) € Questa funzione è una approssimazione della funzione di ripartizione reale!! Leggo dal grafico F(300)=0.8 come lo interpreto? Docente: Alessandra Durio 33 Contenuti • La rilevazione dei dati: variabili e mutabili statistiche • Primi strumenti di sintesi: Distribuzioni di frequenze • Rappresentazioni Grafiche • Misure di posizione: quantili e mediana Docente: Alessandra Durio 34 Sintesi mediante parametri: misure di posizione e tendenza centrale Per le variabili statistiche è possibile (nonché utile) sintetizzare l’informazione rilevata sulla popolazione valutando alcuni PARAMETRI che (se ben interpretati) contribuiscono alla descrizione dei dati. Le misure di posizione e di tendenza centrale sono Parametri che ci danno informazione di dove e come la distribuzione di frequenze di una variabile sia posizionata sull’asse delle ascisse. La media aritmetica discrimina queste due situazioni ! Docente: Alessandra Durio 35 In queste situazioni sono Mediana e Quantili I parametri che descrivono le loro differenze Docente: Alessandra Durio 36 I quantili Nel corso della vita di tutti i giorni probabilmente ci si è imbattuti nell’impiego dei quantili. In occasione ad esempio di un’analisi del sangue il referto ospedaliero comunemente mostra, congiuntamente ai parametri riscontrati per il paziente in osservazione, dei valori “soglia” che sono appunto ciò che in statistica viene definito quantile. Se nel referto osserviamo, ad esempio, in corrispondenza al contenuto di glucosio la dicitura “valore di riferimento < 110 mg/dl” sappiamo che i medici, osservando numerosi pazienti sani, hanno stabilito il valore soglia (110 mg/dl) individuando il limite al di sotto del quale si colloca il contenuto di glucosio nel sangue di una “alta percentuale” dei soggetti osservati. Tale limite dipende ovviamente dalla scelta fatta circa la percentuale di soggetti da considerarsi a “norma”, se ad esempio essa e` pari a 95% diremo che 110 e` il quantile di ordine 0.95 della v.s. contenuto di glucosio e potremmo affermare che il 95% dei soggetti sani ha nel sangue non più di 110 mg/dl di glucosio. Definizione: data una v.s. X il quantile di ordine alfa corrisponde al valore non superato dal alfa% delle unità statistiche. (alfa è un numero che scegliamo tra zero e un) Ricordando che la funzione di ripartizione mette in relazione i valori assunti da una v.s. con le frequenze cumulate è ovvio che per definire ed individuare i quantili sarà possibile fare ricorso ad essa. Docente: Alessandra Durio 37 I quantili: come si calcolano Scelto α ∈ ] 0;1 ] può accadere che: 1. La parallela all’asse delle ascisse incontra la F(x) lungo una “pedata” il quantile xα è la semisomma delle due modalità che formano il “gradino”, € 2. La parallela all’asse delle ascisse incontra la F(x) lungo un’ “alzata” il quantile x è la modalità che induce il “salto” α € € Docente: Alessandra Durio 38 Alcuni quantili particolari Per particolari valori dell’ordine alfa il quantile corrispondente viene citato con un proprio nome. • i quantili di ordine 0.25, 0.5 e 0.75 vengono detti rispettivamente Primo, Secondo e Terzo Quartile. Nome dovuto alla caratteristica di essere quei valori che dividono in quattro parti la distribuzione della v.s. • Si dicono Decili i quantili di ordine multiplo di 0.10 • Si dicono Percentili i quantili di ordine α multiplo di 0.01. Una misura di posizione a cui sovente si farà ricorso è la MEDIANA questa corrisponde al secondo quartile cioè a quel valore che divide in due parti uguali la distribuzione di frequenze MEDIANA = secondo quartile = Docente: Alessandra Durio x 0.5 39 Esempio: calcolo la MEDIANA α = 0.5 α La retta incontra la F(x) lungo la pedata formata dalle modalità 0 e 1 LA MEDIANA è 0.5 € x 0.5 = 0 +1 = 0.5 2 Il 50% delle fatture ha al massimo mezza irregolarità… e € l’altro 50% ne ha più di mezza!!! Docente: Alessandra Durio 40 Esempio: calcolo dei quantili α α = 0.85 € La retta incontra la F(x) lungo nella alzata di 6 Il Quantile di ordine 0.85 è6 x 0.85 = 6 Il 85% delle fatture€ha al più 6 irregolarità… e il 25% ne ha più di 6!!! Docente: Alessandra Durio 41 Esempio: individuare I quantili su un istorgramma !! Docente: Alessandra Durio 42 Concetti Introdotti • Variabili e Mutabili Statistiche e insieme dei dati individuali • Distribuzioni di frequenze (assolute, relative e cumulate) come primo strumento di sintesi dell’informazione rilevata. • La distribuzione di frequenze con dati raccolti in classi • Diagramma a torta e a barre • Grafico a bastoncini • Istogramma • Funzione di ripartizione • I quantili e la mediana Docente: Alessandra Durio 43