Analisi Statistica Monovariata Angelo Castiglione 2 luglio 2016 Indice 1 Introduzione 1.1 Denizioni Generali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione 2.1 Distribuzione statistica disaggregata . . . . . . . . . . . . . . . . 2.1.1 Media aritmetica e media ponderata . . . . . . . . . . . 2.1.2 Media armonica e media armonica ponderata . . . . . . 2.1.3 Media geometrica e media geometrica ponderata . . . . . 2.1.4 Media quadratica e media quadratica ponderata . . . . . 2.1.5 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.6 Quartili e Quantili . . . . . . . . . . . . . . . . . . . . . 2.2 Distribuzione Statistica di Frequenza . . . . . . . . . . . . . . . 2.2.1 Frequenze relative e frequenze cumulate . . . . . . . . . 2.2.2 Media aritmetica . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Media armonica . . . . . . . . . . . . . . . . . . . . . . . 2.2.4 Media geometrica . . . . . . . . . . . . . . . . . . . . . . 2.2.5 Mediana e quartili . . . . . . . . . . . . . . . . . . . . . 2.3 Distribuzione Statistica di Frequenza per Classi . . . . . . . . . 2.3.1 Media aritmetica . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Mediana e quartili . . . . . . . . . . . . . . . . . . . . . 2.4 Rappresentazione graca:istogramma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Indici di Variabilità 3.1 Scostamento semplice medio e scostamento quadratico medio (Deviazione Standard) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Distribuzione statistica disaggregata . . . . . . . . . . . . . . . . 3.1.2 Distribuzione statistica di frequenza . . . . . . . . . . . . . . . . . 3.1.3 Distribuzione statistica di frequenza per classi . . . . . . . . . . . 3.1.4 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Dierenza semplice media . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Campo di variazione e dierenza interquartile . . . . . . . . . . . . . . . 3.4 Indici percentuali di variabilità . . . . . . . . . . . . . . . . . . . . . . . 3.5 Variabilità per distribuzioni secondo caratteri trasferibili: concentrazione 3.5.1 Indice del Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.2 Interpretazione geometrica dell'indice del Gini . . . . . . . . . . . 3.6 Indici di variabilità per caratteri qualitativi . . . . . . . . . . . . . . . . . 2 5 5 10 10 11 12 13 13 14 15 16 17 22 22 22 22 24 27 28 32 34 34 34 37 40 41 41 45 45 46 48 51 57 Indice 4 Indici di Forma 4.1 Denizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Indici di simmetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Curtosi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 59 61 63 5 Numeri indici 5.1 Serie storica . . . . . . . . . . . . . . . 5.2 Numeri indici elementari a base ssa h 5.3 Numeri indici elementari a base mobile 5.4 Variazioni Relative . . . . . . . . . . . 5.4.1 Variazione relativa . . . . . . . 5.4.2 Variazione relativa media . . . . 5.5 Numeri indici complessi . . . . . . . . 67 67 67 69 71 71 71 72 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analisi Statistica Monovariata 4 1 Introduzione 1.1 Denizioni Generali La statistica è l' arte di apprendere dai dati. Essa si occupa della loro raccolta, della loro descrizione e della loro analisi al ne di trarre informazione utile che li caratterizza sinteticamente. Quella parte della statistica che si occupa della raccolta e della descrizione sintetica dei dati si chiama Statistica Descrittiva, mentre quella parte della statistica che si occupa dell'analisi dei dati si chiama Inferenza Statistica. Attraverso la statistica è possibile studiare un determinato processo o fenomeno che può essere sico, economico, sociale, eccetera. Esempio 1. Supponiamo di voler collaudare una bilancia di precisione. Si procede pesando ripetutamente, un oggetto di valore noto (10 Kg). Per ciascuna pesata si ottiene una misurazione diversa a causa di molteplici fattori: • incertezza della bilancia; • incertezza sulla lettura dello strumento; • grandezze interferenti. Supponiamo che il collaudo della bilancia si concluda dopo N misurazioni: si hanno quindi a disposizione N misurazioni o dati come mostrato in Fig.1.1.1 Figura 1.1.1: collaudo di una bilancia 5 1 Introduzione Denizione. (Collettivo statistico e unità statistiche) L'insieme degli N dati inerenti il processo osservato costituiscono il collettivo statistico o popolazione dei dati. Si chiama unità statistica il caso individuale componente del collettivo statistico. Nell' esempio considerato il collettivo statistico è l'insieme delle misurazioni mentre l'unità statistica è la singola misurazione eettuata, dell'oggetSupponiamo che il processo osservato sia l'occupazione di lavoro in Italia.to di peso noto. Denizione. (Carattere del collettivo statistico) Si chiama carattere ogni aspetto elementare dell' unità del collettivo statistico. Nell' esempio considerato il carattere dell' unità statistica è il peso dell'oggetto considerato. Denizione. (modalità osservata del carattere) Si chiama inne, modalità osservata del carattere il modo con cui questo si presenta nel unità del collettivo statistico. Nell' esempio considerato la modalità del carattere dell' unità statistica è il valore di peso che ciascuna misurazione può fornire. Per comprendere meglio il signicato di modalità del carattere è opportuno fare un altro esempio. Esempio 2. Supponiamo che il processo osservato sia l'occupazione di lavoro in Italia. Il collettivo statistico è l'insieme di individui maggiorenni, l'unità statistica è il singolo individuo, il carattere dell'unità statistica è lo stato occupazionale che può presentarsi nella modalità occupato o nella modalità disoccupato. Denizione. (Carattere quantitativo e qualitativo) Il carattere del unità statistica può essere qualitativo o quantitativo. Si dice qualitativo se descritto da un' espressione verbale; si dice quantitativo se espresso da un numero reale. Denizione. (Carattere qualitativo rettilineo e sconnesso) Le modalità del carattere qualitativo possono essere ordinabili o non ordinabili; nel primo caso si parla di carattere qualitativo rettilineo nel secondo caso si parla di carattere qualitativo sconnesso. Denizione. (Carattere quantitativo discreto e continuo) Il carattere quantitativo si dice anche variabile e può essere discreto, se presenta modalità espresse da quantità di valore nito, oppure può essere continuo se presenta modalità espresse da quantità che possono assumere valori appartenenti a intervalli di numeri reali. 6 1 Introduzione Denizione. (Carattere quantitativo trasferibile e non trasferibile) Il carattere quantitativo può essere inoltre trasferibile o non trasferibile. Sostanzialmente un carattere quantitativo di un collettivo statistico si dice trasferibile se in parte si può spostare da una unità statistica ad un'altra unità statistica. Quando non è ragionevole supporre ciò, il carattere quantitativo è non trasferibile. Per esempio il reddito o il patrimonio è un carattere quantitativo trasferibile. Denizione. (Carattere di stato e carattere di movimento) In generale il carattere di una unità statistica può essere legato alla variabile tempo. Se la variabile tempo è un fattore di disturbo per il carattere si parla di carattere di stato. Se il decorso del tempo è un elemento indispensabile per la rilevazione del carattere si parla di carattere di movimento. Per esempio nel lungo periodo l' usura dei componenti meccanici di un motore a scoppio è un carattere di Stato, mentre il consumarsi di una candela accesa è un carattere di movimento. Con l'osservazione del carattere di una singola unità statistica si eettua sostanzialmente una misurazione. Se il carattere è qualitativo la misurazione consiste nell'osservare e registrare le modalità con cui si presentano i caratteri delle unità statistiche; se il carattere è quantitativo discreto la misurazione consiste nell'osservare e registrare un numero nito, per ciascuna unità statistica. In tal caso è possibile stabilire un ordinamento (graduatoria) tra le unità statistiche e anche eseguire operazioni di conteggio. Se il carattere è quantitativo continuo la misurazione consiste nell'aver individuato per l'unità statistica un intervallo di valori reali; in tal caso attraverso una operazione di troncamento si fa corrispondere un numero nito all'intervallo (per esempio il valore centrale dell'intervallo). Il compito della statistica è quello di elaborare (processare) i dati costituenti il collettivo statistico al ne di determinare le cosidette statistiche che consentono di caratterizzare pienamente il fenomeno o processo osservato. Tra le statistiche più comuni vi sono la media, la frequenza di accadimento, gli indici statistici. Le statistiche consentono all'utente la giusta interpretazione del fenomeno osservato. E' compito della statistica descrittiva illustrare e sintetizzare i dati raccolti; mentre è compito dell' inferenza statistica costruire i modelli matematici che portano alla corretta conclusione riguardante il processo esaminato. I modelli matematici utilizzati nell'ambito della statistica sono quelli relativi alla teoria della probabilità. I processi che danno origine alle statistiche sono: 1. l' indagine statistica; 2. l' esperimento; 3. lo studio o osservazione sul campo. 7 1 Introduzione Sostanzialmente si tratta di tre diversi modi per la raccolta dei dati. Una volta raccolti i dati questi vengono organizzati secondo la cosidetta matrice dei dati in modo che utenti futuri possono accedere facilmente ai dati del collettivo statistico. Si tratta di una disposizione per righe e colonne: in ogni riga vengono elencate secondo un ordine stabilito le modalità dei caratteri rilevati di ogni singola unità statistica; in ogni colonna sono riportate le caratteristiche delle unità statistiche. Esempio 3. In Figura 1.1.2 viene mostrata una matrice di dat i che riporta i caratteri età, peso, altezza e circonferenza del collo di un gruppo di 6 individui. Figura 1.1.2: matrice di dati Quando di un collettivo statistico si studia un solo carattere si parla di Analisi statistica Monovariata, quando dello stesso collettivo si studiano 2 caratteri si parla di Analisi Statistica Bivariata e in generale se dello stesso collettivo si studiano più di due caratteri si parla di Analisi Statistica Multivariata. Come detto all'inizio, la statistica si suddivide fondamentalmente in Statistica Descrittiva e Inferenza Statistica. Dopo aver acquisito qualche nozione possiamo denirle con più accuratezza. I principi e i metodi della statistica descrittiva riguardano: • la programmazione delle indagini censuarie; • la rilevazione dei dati; • la costruzione della distribuzione di frequenza o di quantità; • la rappresentazione graca dei dati; • calcolo delle costanti di sintesi. Per inferenza statistica si intende l'insieme dei metodi che permettono di generalizzare i risultati basati sull'osservazione parziale come nel caso dell' indagine campionaria; l' inferenza statistica si avvale di due metodologie fondamentali: • verica delle ipotesi; • stima dei parametri. Entrambe le metodologie sono basate sul calcolo della probabilità. 8 1 Introduzione Alcuni calcoli statistici Siano a e b due livelli o misure di uno stesso fenomeno espresso nella stessa unità di misura ma riferiti a situazioni diverse. Tali quantità possono essere confrontate per mezzo della dierenza assoluta b−a o per mezzo della dierenza relativa b−a a o inne per mezzo della dierenza percentuale b−a · 100 a Siamo pronti ad iniziare lo studio della statistica partendo dalla Statistica Descrittiva Monovariata. Quello che faremo è raccogliere i dati di un carattere di un collettivo statistico per poi sintetizzarli attraverso opportuni indici: indici di tendenza centrale, indici di posizione, indici di variabilità, indici di forma e numeri indice. 9 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione La prima nozione che viene introdotta in statistica descrittiva è quella di distribuzione statistica. Una distribuzione statistica è una rappresentazione delle modalità di un carattere delle unità di un collettivo statistico. Si possono avere distribuzioni statistiche disaggregate, distribuzioni statistiche di frequenza e distribuzioni statistiche di frequenza per classi. 2.1 Distribuzione statistica disaggregata Consideriamo un collettivo statistico formato da N unità e sia X il carattere osservato per ciascuna di esse. Si chiama distribuzione statistica disaggregata secondo il carattere X l'insieme delle modalità osservate per ciascuna unità: {x1 , x2 , ......, xN } Così x1 è la modalità osservata relativa all'unità statistica 1, x2 è la modalità osservata relativa all'unità statistica 2 e così via. Esempio 4. Supponiamo che il processo osservato sia l'esito dell' esame di Storia soste- nuto nella Facoltà di Lettere a Catania da 10 studenti. In Figura 2.2.1 vengono riportati i risultati dell'esame. 10 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione Figura 2.1.1: esito esame di storia Il collettivo statistico è l'insieme degli alunni, il carattere osservato è il voto di Storia e inne la distribuzione statistica disaggregata è {30, 28, 28, 25, 27, 26, 30, 29, 21, 24} Nell' ambito delle distribuzioni statistiche disaggregate è sovente l'utilizzo di uno importante strumento che consente di sintetizzare i dati, detto media. Procediamo vedendo quante medie si possono denire. 2.1.1 Media aritmetica e media ponderata Sia {x1 , x2 , ......, xN } una distribuzione statistica disaggregata. Si chiama media aritmetica la somma delle modalità osservate fratto il loro numero: x1 + x2 + ...... + xN µa. = = N PN i=1 xi N (2.1.1) Se alle modalità osservate corrispondono rispettivamente le misure o pesi: p1 , p2 , ......, pN , si denisce media aritmetica ponderata la somma dei prodotti delle modalità osservate per i rispettivi pesi fratto la somma dei pesi di tutte le modalità osservate: µa.p. PN xi p i x1 p1 + x2 p2 + ...... + xN pN = = Pi=1 N p1 + p2 + ...... + pN i=1 pi 11 (2.1.2) 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione Esempio 5. Nella tabella mostrata in Figura 2.1.2 sono riportati i voti conseguiti da uno studente di Ingegneria Informatica in alcune discipline assieme ai corrispondenti CFU. Figura 2.1.2: esito esami studente Ingegneria informatica Valutiamo la media aritmetica e la media aritmetica ponderata. 2.1.2 Media armonica e media armonica ponderata Sia {x1 , x2 , ......, xN } una distribuzione statistica disaggregata con modalità osservate NON nulle. Si chiama media armonica il rapporto tra il numero N delle modalità e la somma dei reciproci delle modalità osservate: µarm. = N N = PN 1/x1 + 1/x2 + ...... + 1/xN i=1 1/xi (2.1.3) Se alle modalità osservate corrispondono rispettivamente le misure o pesi: p1 , p2 , ......, pN , si denisce media armonica ponderata il rapporto tra la somma dei pesi e la somma dei rapporti tra i pesi e le corrispondenti modalità osservate: µarm.p. PN pi p1 + p2 + ...... + pN = = PN i=1 p1 /x1 + p2 /x2 + ...... + pN /xN i=1 pi /xi (2.1.4) Esempio 6. Nella tabella mostrata in Figura 2.1.2 sono riportati i voti conseguiti da uno studente di Ingegneria Informatica in alcune discipline assieme ai corrispondenti CFU. Valutiamo la media armonica e la media armonica ponderata. 12 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione 2.1.3 Media geometrica e media geometrica ponderata Sia {x1 , x2 , ......, xN } una distribuzione statistica disaggregata con modalità osservate NON nulle. Si chiama media geometrica la radice N-esima del prodotto tra le modalità osservate: µg. = √ N x1 · x2 · ......· xN Se alle modalità osservate corrispondono rispettivamente le misure o pesi: p1 , p2 , ......, pN , si denisce media geometrica ponderata ,l'espressione: µg. = q N xp11 · xp22 · ......· xpNN Esempio 7. Nella tabella mostrata in Figura 2.1.2 sono riportati i voti conseguiti da uno studente di Ingegneria Informatica in alcune discipline assieme ai corrispondenti CFU. Valutiamo la media geometrica e la media geometrica ponderata. 2.1.4 Media quadratica e media quadratica ponderata Sia {x1 , x2 , ......, xN } una distribuzione statistica disaggregata. Si chiama media quadratica la radice quadrata della somma dei quadrati delle modalità osservate fratto il numero N delle modalità osservate: r µq. = x21 + x22 + ...... + N x2N s = PN i=1 x2i N (2.1.5) Se alle modalità osservate corrispondono rispettivamente le misure o pesi: p1 , p2 , ......, pN , si denisce media quadratica ponderata, l'espressione s µq.p. = x21 p1 + x2 p22 + ...... + x2N pN = p1 + p2 + ...... + pN 13 sP N 2 i=1 xi pi PN i=1 pi (2.1.6) 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione Esempio 8. Nella tabella mostrata in Figura 2.1.2 sono riportati i voti conseguiti da uno studente di Ingegneria Informatica in alcune discipline assieme ai corrispondenti CFU. Valutiamo la media quadratica e la media quadratica ponderata. La media è un indice statistico che individua il valore baricentrico tra le modalità osservate della distribuzione statistica disaggregata e per tale ragione viene detto indice di tendenza centrale o indice analitico. Altri importanti indici che consentono individuare il valore baricentrico della distribuzione statistica disaggregata sono gli indici di posizione. Tra questi indici ci sono la mediana il quartile 1, il quartile 2 e il quartile 3. Per poter determinare questi indici occorre ordinare le distribuzioni statistiche disaggregata per modalità crescenti o decrescenti. Diamo quindi la seguente denizione. Denizione. (Graduatoria) Sia {x1 , x2 , ......, xN } una distribuzione statistica disaggregata. Indichiamo con {y1 , y2 , ......, yN } la distribuzione statistica disaggregata ordinata crescente detta graduatoria: y1 < y2 < ...... < yN Esempio 9. Sia data la distribuzione statistica disaggregata relativa all' Esempio 4: X = {30, 28, 28, 25, 27, 26, 30, 29, 21, 24} Si ha facilmente che da essa si ricava la graduatoria: Y = {21, 24, 25, 26, 27, 28, 28, 29, 30, 30} 2.1.5 Mediana sia Y = {y1 , y2 , ......, yN } una graduatoria. Se N è dispari allora la mediana M è la modalità osservata di posizione (N+1)/ 2 M = y N +1 2 14 (2.1.7) 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione Se N è pari allora la mediana M è la media aritmetica tra la modalità di posizione N/2 e la modalità di posizione N/2+1 M= y N + y N +1 2 2 2 (2.1.8) Esempio 10. Valutare la mediana per la distribuzione statistica disaggregata dell' Esempio 4. 2.1.6 Quartili e Quantili I quartili sono tre quantità, indicate rispettivamente con Q1 Q2 e Q3 che suddividono graduatoria in quattro parti aventi la stessa numerosità; per individuare i quartili occorre ispezionare il numero: H= L N 4 con L = 1, 2, 3 (2.1.9) Nella formula, L è l'ndice del quartile. Se H è intero allora il quartile l vale: QL = yH + yH+1 2 (2.1.10) Se H non è intero, allora il quartile vale:N QL = y[H]+1 (2.1.11) essendo [H] la parte intera di H. Sì osservi che il quartile 2 coincide con la mediana M. I quantili sono un caso particolare dei quantili e come abbiamo detto consentono di suddividere la graduatoria in quattro parti aventi la stessa numerosità . Altri quantili sono ad esempio i decili. I decili suddividono la graduatoria in 10 parti aventi la stessa numerosità. In questo caso il numero H si stabilisce mediante la formula: H= L N 10 con L = 1, 2, 3, 4, 5, 6, 7, 8, 9 (2.1.12) I decili sono quindi 9 e si indicano con i simboli D1 , D2 , D3 , ......., D9 Sia le medie che la mediana sono indici che cercano il valore baricentrico della distribuzione statistica disaggregata. Va detto però che in presenza di anomalie nei dati ( modalità troppo basse o troppo alte ), la mediana risulta essere più precisa della media. Esempio 11. Valutare la mediana per la distribuzione statistica disaggregata dell' Esempio 4. 15 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione 2.2 Distribuzione Statistica di Frequenza Consideriamo un collettivo statistico formato da N unità di cui vogliamo ispezionare il carattere X. Dopo una investigazione statistica si trova la distribuzione statistica disaggregata del carattere X {x1 , x2 , ......, xN } dove x1 , x2 , ... ...,xN sono rispettivamente le modalità osservate per le unità statistiche 1, 2, ... ..., N. Nella tabella mostrata in Figura 2.2.1 ( matrice dei dati ) sono riportati per 10 individui ( unità statistiche ) i corrispondenti voti di laurea. Figura 2.2.1: distribuzione disaggregata: voti di laurea Si può osservare come sia possibile avere delle ripetizioni tra le modalità osservate. Possiamo fare a questo punto delle precisazioni. Chiamiamo modalità le modalità osservate senza ripetizione. Quando il numero di modalità osservate N è molto elevato è conveniente raggruppare i dati per modalità anziché per modalità osservate. Con riferimento alla tabella mostrata in Figura 2.2.1 si ha che le modalità sono: x1 = 100, x2 = 98, x3 = 107, x4 = 110, x5 = 99, x6 = 82 Pertanto abbiamo che le modalita osservate sono N = 10 mentre le modalità sono: K=6 In generale indichiamo 16 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione x1 , x2 , ......, xK le modalità di un collettivo statistico. Sì osservi che il numero K delle modalità è sempre minore uguale al numero N delle modalità osservate: K≤N Il raggruppamento dei dati per modalità avviene attraverso un procedimento di conteggio detto sfoglio dei dati. In sostanza lo sfoglio dei dati consiste nel realizzare una tabella formata da due colonne: nella colonna di sinistra vengono riportate le K-modalità e nella colonna di destra vengono riportati i numeri di volte con cui si presentano le modalità. 2.2.1 Frequenze relative e frequenze cumulate Il numero di volte con cui si presenta una modalità di un carattere in un collettivo si chiama frequenza della modalità o con più enfasi frequenza assoluta. Quindi alla generica modalità xi (con i = 1, 2, ..., K ) corrisponde la frequenza assoluta nI . L'insieme delle coppie (modalità, frequenza assoluta )costituiscono la distribuzione statistica di frequenza. Relativamente alla tabella mostrata in gura 2.2.1 si ottiene la distribuzione statistica di frequenza mostrata in Figura 2.2.2. Figura 2.2.2: distribuzione statistica di frequenza:voti di laurea sì osservi che è n1 + n2 + n3 + n4 + n5 + n6 = = 3 + 1 + 3 + 1 + 1 + 1 = 10 = N Cioè la somma delle frequenze delle K-modalità da il numero N delle unità statistiche, quindi in generale possiamo scrivere: 17 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione n1 + n2 + ....... + nK = N Eseguendo il rapporto tra la generica frequenza assoluta n1 e il numero N delle unità statistiche si ricava la frequenza relativa relativa fi della mobilità xi f1 = n1 N f2 = n2 N . . fK = nK N Si denisce frequenza relativa percentual e la frequenza relativa moltiplicata per 100: f1% = n1 · 100 N f2% = n2 · 100 N . . fK% = nK · 100 N Quindi relativamente alla tabella mostrata in gura 2.2.2 le frequenze relative sono: f1 = n1 3 = = 0, 3 N 10 f2 = 1 n2 = = 0, 1 N 10 f3 = n3 3 = = 0, 3 N 10 f4 = n4 1 = = 0, 1 N 10 f5 = n5 1 = = 0, 1 N 10 18 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione f6 = 1 n6 = = 0, 1 N 10 mentre le frequenze relative percentuali sono: f1% = n1 · 100 = 30% N f2% = n2 · 100 = 10% N f3% = n3 · 100 = 30% N f4% = n4 · 100 = 10% N f5% = n5 · 100 = 10% N f6% = n6 · 100 = 10% N Si osservi che: f1 + f2 + f3 + f4 + f5 + f6 = 0, 3 + 0, 1 + 0, 3 + 0, 1 + 0, 1 + 0, 1 = 1 Quindi in generale si ha che la somma delle frequenze relativa risulta pari a 1: f1 + f2 + ....... + fK = 1 Si osservi pure che: f1% + f2% + f3% + f4% + f5% + f6% = 30% + 10% + 30% + 10% + 10% + 10% = 100% Quindi in generale si ha che la somma delle frequenze relativa percentuali risulta pari al 100%: f1% + f2% + ....... + fK% = 100% 19 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione Consideriamo nuovamente le frequenze assoluto dell 'esempio precedente: n1 = 3 n2 = 1 n3 = 3 n4 = 1 n5 = 1 n6 = 1 le quantità: N1 = n1 = 3 N2 = n1 + n2 = 3 + 1 = 4 N3 = n1 + n2 + n3 = 3 + 1 + 3 = 7 N4 = n1 + n2 + n3 + n4 = 3 + 1 + 3 + 1 = 8 N5 = n1 + n2 + n3 + n4 + n5 = 3 + 1 + 3 + 1 + 1 = 9 N6 = n1 + n2 + n3 + n4 + n5 + n6 = 3 + 1 + 3 + 1 + 1 + 1 = 10 si chiamano frequenze cumulate. Sì osservi che le frequenze cumulate sono esattamente K cioè in numero pari alle modalità del collettivo statistico quindi in generale le frequenze cumulate sono: N1 , N2 , ......, NK Dividendo le frequenze cumulate per il numero N delle unità statistiche si ottengono le frequenza cumulata relative: F1 = 3 N1 = = 0, 3 N 10 20 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione F2 = N2 4 = = 0, 4 N 10 F3 = N3 7 = = 0, 7 N 10 F4 = N4 8 = = 0, 8 N 10 F5 = N5 9 = = 0, 9 N 10 F6 = N6 10 = =1 N 10 Le frequenze cumulate forniscono contenuto informativo solo per distribuzioni statistiche di frequenza ordinate, ossia per le graduatorie. Per capire ciò consideriamo la graduatoria Y mostrata in Figura 2.2.3 ottenuta dalla distribuzione statistica di frequenza di Figura 1.2.4. Per la graduatoria sono riportate le frequenze assolute le frequenze accumulate: Figura 2.2.3: graduatoria: voti di laurea Guardando la tabella si ha per esempio che la frequenza cumulata N4 = 6 indica che vi sono 6 individui il cui voto di laurea e minore o uguale a 100. I dati espressi mediante distribuzioni statistiche di frequenza si possono sintetizzare mediante un indice di tendenza centrae: media aritmetica, armonica, geometrica, o quadratica. Oppure un indice di posizione: mediana e quartili. Vogliamo adesso determinare gli inici di tendenza centrale e gli indici di posizione per la generica distribuzione statistica di frequenza riportata in Figura 2.2.4. 21 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione Figura 2.2.4: distribuzione statistica di frequenza 2.2.2 Media aritmetica x1 n1 + x2 n2 + ...... + xK nK µa. = = n1 + n2 + ...... + nK PK xi n i P x· n N (2.2.1) N n1 + n2 + ...... + nK N = PK =P n1 /x1 + n2 /x2 + ...... + nK /xK n/x i=1 ni /xi (2.2.2) i=1 N = 2.2.3 Media armonica µarm. = 2.2.4 Media geometrica q µg. = N xn1 1 · xn2 2 · ......· xnNK (2.2.3) 2.2.5 Mediana e quartili Se la distribuzione statistica di frequenza è ordinata (cioè se è una graduatoria), si determinano la mediana e i quartili come nel caso della distribuzione statistica disaggregata. Consideriamo la graduatoria mostrata in Figura 2.2.5 Figura 2.2.5: Voti di Laurea 22 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione La mediana è data dalla formula: ( y N +y N +1 M = 2 22 M = y N +1 se N è pari se N è dispari 2 (2.2.4) mentre i quartili si determinano mediante la formula: ( y H +y H +1 QL = 2 2 2 QL = y[H]+1 se H è intero se H non è intero (2.2.5) essendo H= N · L L = 1, 2, 3 4 Per la graduatoria mostrata in Figura 2.2.5 si ha: M = y N +1 = y 41+1 = y 42 = y21 = 105 2 2 2 Per il quartile 1 (L=1) il numero H vale H= N 41 · L = · 1 = 10, 25 4 4 Poichè H non è intero il quartile 1 vale: Q1 = y[H]+1 = y[10,25]+1 = y10+1 = y11 = 100 Per il quartile 2 (L=2) il numero H vale: H= N 41 · L = · 2 = 20, 5 4 4 Poichè H non è intero il quartile 2 vale: Q2 = y[H]+1 = y[20,5]+1 = y20+1 = y21 = 105 Per il quartile 3 (L=3) il numero H vale: H= N 41 · L = · 3 = 30, 75 4 4 Poichè H non è intero il quartile 3 vale: Q3 = y[H]+1 = y[30,75]+1 = y30+1 = y32 = 107 Si osservi che il quartile 1 delimita il 25% della distribuzione, il quartile 2 delimita il 50% della distribuzione ed inne il quartile 3 delimita il 75% della distribuzione. 23 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione 2.3 Distribuzione Statistica di Frequenza per Classi Consideriamo un collettivo statistico formato da n unità ed investighiamo sul carattere X; le modalità osservate del carattere X sono riportate in Figura 2.3.1 Figura 2.3.1: distribuzione statistica disaggregata Dai dati in tabella si ricava immediatamente la distribuzione statistica disaggregata X = {x1 , x2 , ......, xN } Se il numero N delle modalità osservate è enorme i dati si organizzano in gruppi di modalità osservate contigue dette classi. Cioè le classi sono degli intervalli contigui che contengono modalità osservate. Si ricordi dalla matematica che la contiguità tra due intervalli equivale a dire che un elemento non può appartenere a due dierenti intervalli. Quindi se una modalità osservata appartiene ad una classe non può appartenere alla classe ad essa adiacente. Il numero di modalità osservate appartenenti alla classe Ci è la frequenza assoluta ni della Classe Ci . Si possono tenere delle classi contigue attraverso intervalli disgiunti: [a, b), [b, c)........[v, z) [a, b], (b, c]........(v, z] Se consideriamo per esempio la Classe [a, b) il numero a si chiama estremo inferiore mentre il numero b si chiama estremo superiore. Questi possono o non possono coincidere con una modalità osservata. Se i dati sono raggruppati in K-classi C1 , C2 , ........, CK 24 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione aventi rispettivamente frequenze assolute n1 , n2 , ........, nK è chiaro che la somma di queste ultime corrisponde al numero N delle unità statistiche del collettivo statistico: n1 + n2 + ........ + nK = N Consideriamo la classe Ci = [a, b) si chiama ampiezza della classe la dierenza tra l'estremo superiore e l'estremo inferiore: Ai = b − a si chiama densità di frequenza la quantità hi = ni Ai essendo ni la frequenza assoluta della Classe Ci Si chiama inne valore centrale della classe Ci la media aritmetica tra i suoi estremi x̄i = a+b 2 Il valore centrale di una classe non va confuso con il valore centrale di una distribuzione . Data una distribuzione disaggregata ordinata (graduatoria) {y1 , y2 , ......, yN } si chiama valore centrale della distribuzione la media aritmetica tra i suoi estremi: µc = y1 + yN 2 Si chiama moda di una distribuzione statistica di frequenza (per classi) la modalità (classe) a frequenza più alta. Consideriamo la distribuzione statistica disaggregata mostrata in Figura 2.3.2 25 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione Figura 2.3.2: distribuzione statistica disaggrgata:voti di Laurea Possiamo pensare di sintetizzare i dati raggruppandoli secondo le classi C1 = [95, 96] C2 = (96, 98] C3 = (98, 100] C4 = (100, 102] Dalla tabella è evidente che alla classe C1 appartengono due modalità osservate e pertanto è n1 = 2. Analogamente alla classe C2 appartengono 4 modalità osservate e pertanto è n2 = 4 e così via si ottiene la distribuzione statistica di frequenza per classi mostrata in Figura 2.3.3 26 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione Figura 2.3.3: distribuzione statistica di frequenza per classi: voti di Laurea Il raggruppamento dei dati per classi ha da una parte sintetizzato i dati stessi ma anche portato una perdita di informazione. Per ciascuna classe non sappiamo chi sono le sue modalità osservate; per esempio se consideriamo la classe C4 sappiamo che al suo interno vi sono tre modalità ma non sappiamo più chi sono!!! 2.3.1 Media aritmetica Vogliamo adesso vedere come si valuta la media aritmetica quando la distribuzione è di frequenza per classi. Supponiamo di avere una distribuzione statistica di dati suddivisa nelle classi C1 , C2 , ......, CK rispettivamente di frequenze assolute n1 , nn , ......, nK Per ciascuna classe si valuta il valore centrale: x̄1 , x̄n , ......, x̄K Si chiama media aritmetica l'espressione: x̄1 n1 + x̄2 n2 + ...... + x̄K nK = µa. = n1 + n2 + ...... + nK PK i=1 N x̄i ni P = x̄· n N (2.3.1) I valori centrali sono serviti a troncare gli intervalli ossia le classi: si osservi che la formula per la media è un'approssimazione della reale media; più piccole sono le classi migliore risulta l'approssimazione. Possiamo provare quest'ultima aermazione calcolando la media aritmetica per la distribuzione dei dati voti di Laurea dell'esempio precedente. Se i dati sono organizzati in modo disaggregato la media aritmetica vale: 27 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione µa. = 101 + 100 + 101 + 98 + 97 + 96 + 98 + 98 + 96 + 101 986 = = 98, 6 10 10 Viceversa se i dati sono organizzati in classi come mostrato in Figura 2.3.4 Figura 2.3.4: distribuzione statistica di frequenza per classi: voti di Laurea è chiaro che la media aritmetica vale: P µa. = n· x̄ 981 = = 98, 1 N 10 2.3.2 Mediana e quartili Vogliamo inne vedere come si valuta la mediana M e quartili Q1 , Q2 e Q3 quando la distribuzione statistica è di frequenza per classi. Si chiama classe mediana o seconda classe quartilica la classe che contiene l'accumulo di frequenza relativa pari a 0,5. La mediana M è il valore x interno alla classe mediana CM = (xIN F , xSU P ) in corrispondenza del quale si ha l'accumulo di frequenza relativa pari a 0,5. Essa si determina mediante la formula: M = xIN F + xSU P − xIN F (0, 5 − FC.P.M ) FC.M. − FC.P.M. (2.3.2) dove FC.M. è la frequenza relativa cumulata no alla classe mediana CM ed FC.P.M. è la frequenza relativa cumulata no alla classe che precede la classe mediana. 28 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione Si chiama prima classe quartilica la classe che contiene l'accumulo di frequenza relativa pari a 0,25. Il quartile 1 è il valore x interno alla prima classe quartilica CQ1 = (xIN F , xSU P ) in corrispondenza del quale si ha l'accumulo di frequenza relativa pari a 0,25. Esso si determina mediante la formula: Q1 = xIN F + xSU P − xIN F (0, 25 − FC.P.Q1 ) FC.Q1 − FC.P.Q1 (2.3.3) dove FC.Q1 è la frequenza relativa cumulata no alla prima classe quartilica CQ1 ed FC.P.Q1 è la frequenza relativa cumulata no alla classe che precede la prima classe quartilica. Si chiama terza classe quartilica la classe che contiene l'accumulo di frequenza relativa pari a 0,75. Il quartile 3 è il valore x interno alla terza classe quartilica CQ3 = (xIN F , xSU P ) in corrispondenza del quale si ha l'accumulo di frequenza relativa pari a 0,75. Esso si determina mediante la formula: Q3 = xIN F + xSU P − xIN F (0, 75 − FC.P Q3 ) FC.Q3 − FC.P.Q3 (2.3.4) dove FC.Q3 è la frequenza relativa cumulata no alla terza classe quartilica CQ3 ed FC.P.Q3 è la frequenza relativa cumulata no alla classe che precede la terza classe quartilica. Esempio 12. Valutare la mediana, i quartili e la moda per la distribuzione statistica di frequenza per classi mostrata in Figura 2.3.3. Occorre innanzitutto costruire la tabella mostrata in Figura 2.3.5 dove sono riportate le frequenze relative e le frequenze relative cumulate. Figura 2.3.5: distribuzione statistica di frequenza per classi: voti di Laurea 29 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione Dalla tabella risulta chiaro che l'accumulo di frequenza 0,5 è contenuto nella classe (96, 98] Quindi tale classe è la seconda classe quartilica o classe mediana: CM = (96, 98] Quindi abbiamo che è xIN F = 96 xSU P = 98 La frequenza della classe mediana è F2 e quindi scriviamo FC.M. = 0, 6 mentre la frequenza della classe che precede la classe mediana è F1 e quindi scriviamo: FC.P.M. = 0, 2 A questo punto utilizzando la formula in (2.3.2) si ha: M = xIN F + xSU P − xIN F (0, 5 − FC.P.M ) = FC.M. − FC.P.M. = 96 + = 96 + 98 − 96 (0, 5 − 0, 2) = 0, 6 − 0, 2 2 (0, 3) = 96 + 1, 5 = 97, 5 0, 4 Dalla tabella risulta chiaro che l'accumulo di frequenza 0,25 è contenuto nella classe (96, 98] Quindi tale classe non solo è la seconda classe quartilica ma è anche la prima classe quartilica: CQ2 = (96, 98] Quindi abbiamo che è xIN F = 96 xSU P = 98 La frequenza della prima classe quartilica è F2 e quindi scriviamo FC.Q1 = 0, 6 mentre la frequenza della classe che precede la prima classe quartilica è F1 e quindi scriviamo: 30 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione FC.P.Q1 = 0, 2 A questo punto utilizzando la formula in (2.3.3) si ha: Q1 = xIN F + xSU P − xIN F (0, 25 − FC.P.Q1 ) = FC.Q1 − FC.P.Q1 = 96 + = 96 + 98 − 96 (0, 25 − 0, 2) = 0, 6 − 0, 2 2 (0, 05) = 96 + 0, 25 = 96, 25 0, 4 Dalla tabella risulta chiaro che l'accumulo di frequenza 0,75 è contenuto nella classe (100, 102] Quindi tale è la terza classe quartilica: CQ3 = (100, 102] Quindi abbiamo che è xIN F = 100 xSU P = 102 La frequenza della terza classe quartilica è F4 e quindi scriviamo FC.Q3 = 1, 0 mentre la frequenza della classe che precede la prima classe quartilica è F3 e quindi scriviamo: FC.P.Q3 = 0, 7 A questo punto utilizzando la formula in (2.3.4) si ha: Q3 = xIN F + xSU P − xIN F (0, 75 − FC.P.Q3 ) = FC.Q3 − FC.P.Q3 = 100 + = 100 + 102 − 100 (0, 75 − 0, 7) = 1, 0 − 0, 7 2 (0, 05) = 100 + 0, 333 = 100, 333 0, 3 Inne la moda è la classe: (96, 98] Esempio 13. Valutare la mediana, i quartili e la moda per la distribuzione statistica di frequenza per classi mostrata in Figura 2.3.6 31 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione Figura 2.3.6: distribuzione statistica di frequenza per classi: voti di Laurea 2.4 Rappresentazione graca:istogramma Una distribuzione statistica di frequenza per classi può essere presentata all'utente attraverso la rappresentazione graca chiamata istogramma. Si tratta di un graco che presenta in ascissa le ampiezze Ai delle classi e in ordinate le densità hi delle stesse classi. Se consideriamo la distribuzione statistica di frequenza per classi mostrata in Figura 2.3.6 possiamo costruire la tabella mostrata in Figura 2.3.7 dove sono riportate per ciascuna classe, l'ampiezza e la densità. Figura 2.4.1: distribuzione statistica di frequenza per classi: voti di Laurea Note le ampiezze e le densità delle classi è chiaro che l'istogramma è il graco mostrato in Figura 2.4.2. 32 2 Indici di Tendenza Centrale:Indici analitici e Indici di Posizione Figura 2.4.2: distribuzione statistica di frequenza per classi:istogramma dei voti di Laurea Dall'istogramma si vede che la moda è anche la classe a densità più elevata nonchè la classe che contiene la mediana e più in generale l'indice di tendenza centrale. 33 3 Indici di Variabilità La variabilità e latitudine dei fenomeni naturali e sociali a manifestarsi in modi dierenti. Si possono avere due distinte situazioni di variabilità: • il fenomeno della variabilità si manifesta su entità distinte; • il fenomeno della variabilità si presenta quando i dati statistici sono il risultato dell'osservazione ripetuta di una stessa grandezza. Esistono dei particolari parametri che consentono di misurare la variabilità detti indici di variabilità. Fino ad ora abbiamo visto come attraverso indici analitici ( media aritmetica, media aritmetica ponderata,...) e indici di posizione ( mediana, moda, quartili...) è stato possibile sintetizzare i dati di una distribuzione statistica ( disaggregata, di frequenza, di frequenza per classi) attraverso un unico valore. In realtà gli indici analitici e gli indici di posizione non consentono di sintetizzare tutto il contenuto informativo di una distribuzione statistica in quanto non tengono conto della variabilità. Gli indici di variabilità sono dei parametri che danno una misura di come i dati statistici sono distribuiti attorno ad indici di posizione o indici analitici. Data una distribuzione statistica disaggregata: X = {x1 , x2 , ......, xN } misurare la variabilità vuol dire stabilire il grado di diversità tra i termini della distribuzione. Per un indice di variabilità valgono le proprietà : 1. L'indice di variabilità è nullo se è solo se tutti i termini della distribuzione sono uguali. 2. L'indice di variabilità assume valori tanto più grandi quanto maggiore è la diversità tra i termini della distribuzione. Cominciamo a descrivere qualche indice di variabilità. 3.1 Scostamento semplice medio e scostamento quadratico medio (Deviazione Standard) 3.1.1 Distribuzione statistica disaggregata Consideriamo una distribuzione statistica disaggregata : 34 3 Indici di Variabilità X = {x1 , x2 , ......, xN } e calcoliamo la sua media aritmetica: PN P x x1 + x2 + ...... + xN i=1 xi = = (3.1.1) µa = N N N Si chiama scostamento della modalità osservata x1 rispetto alla media aritmetica µa la quantità: |x1 − µa | Si chiama scostamento della modalità osservata x2 rispetto alla media aritmetica µa la quantità: |x2 − µa | e così via si chiama scostamento della modalità osservata xN rispetto alla media aritmetica µa la quantità: |xN − µa | Ovviamente per N modalità osservate del carattere X si hanno N scostamenti o scarti rispetto alla media aritmetica: |x1 − µa | , |x2 − µa | , ......, |xN − µa | Si chiama scostamento semplice medio per una distribuzione statistica disaggregata X, la media aritmetica tra gli scostamenti delle modalità osservate rispetto alla media aritmetica: |x1 − µa | + |x2 − µa | + ...... + |xN − µa | = Sµ = N PN i=1 |xi − µa | = N P |x − µa | (3.1.2) N Si chiama deviazione standard o scostamento quadratico medio la media quadratica degli scarti: s σ= 2 2 2 |x1 − µa | + |x2 − µa | + ...... + |xN − µa | = N s PN i=1 2 |xi − µa | = N s P |x − µa |2 N (3.1.3) Esempio 14. Cinque studenti hanno conseguito la laurea in ingegneria elettronica con i voti 98, 99, 105, 102 e 110. Determinare lo scostamento semplice medio e la deviazione standard. 35 3 Indici di Variabilità Si organizzano i dati come mostrato nella tabella di Figura 3.1.1. In questa tabella sono riportati gli scarti e il quadrato degli scarti rispetto alla media aritmetica: P µa = 514 x = = 102, 8 N 5 Figura 3.1.1: distribuzione statistica disaggregata: voti di Laurea Lo scostamento semplice medio risulta: P Sµ = 18, 8 |x − µa | = = 3, 76 N 5 mentre la deviazione standard risulta: s P σ= |x − µa |2 = N r p 94, 8 = 18, 96 = 4, 35 5 Si osservi che se le modalità osservate sono valori assunti da una grandezza sica si ha che lo scostamento semplice medio e la deviazione standard assumono la stessa unità di misura della grandezza sica considerata. Esempio 15. Consideriamo tre distinte distribuzioni statistiche disaggregate aventi medesima media aritmetica: X1 = {2, 3, 5, 6, 9} =⇒ µ1 = 2+3+5+6+9 =5 5 X2 = {0, 4, 5, 7, 9} =⇒ µ2 = 0+4+5+7+9 =5 5 X3 = {0, 0, 0, 1, 24} =⇒ µ3 = 0 + 0 + 0 + 1 + 24 =5 5 µ1 = µ2 = µ3 = µ = 5 36 3 Indici di Variabilità Queste tre distribuzioni non hanno stessa deviazione standard. Vista la seplicità delle distribuzioni assegnate si vede che la distribuzione X3 presenta modalità che si scostano molto dalla media aritmetica; quindi c'è più variabilità nella distribuzione X3 anzichè nelle distribuzioni X2 ed X1 . Questo vuol dire che la distribuzione X3 ha una maggiore deviazione standard rispetto alle distribuzioni X2 ed X1 . Confrontando le distribuzioni X2 ed X1 non si può dire a occhio quale di queste presenta più variabilità e pertanto è necessario eseguire il calcolo: s |2 − 5|2 + |3 − 5|2 + |5 − 5|2 + |6 − 5|2 + |9 − 5|2 = 5 r 9 + 4 + 0 + 1 + 16 √ = = 6 ' 2, 45 5 s |0 − 5|2 + |4 − 5|2 + |5 − 5|2 + |7 − 5|2 + |9 − 5|2 = 5 r 25 + 1 + 0 + 4 + 16 p = = 46/5 ' 3, 03 5 σ1 = σ2 = s σ3 = |0 − 5|2 + |0 − 5|2 + |0 − 5|2 + |1 − 5|2 + |24 − 5|2 = 5 r 25 + 25 + 25 + 16 + 361 p = = 452/5 ' 9, 51 5 Visto che è σ1 < σ2 < σ3 si ha più variabilità in X3 e a seguire si hanno rispettivamente le variabilità in X2 e X1 . 3.1.2 Distribuzione statistica di frequenza Data la distribuzione statistica di frequenza mostrata in Figura 3.1.2 37 3 Indici di Variabilità Figura 3.1.2: distribuzione statistica di frequenza si ha che lo scostamento semplice medio vale: P |xi − µ| ni N P |xi − µ|2 ni N Sµ = mentre la deviazione standard vale: s σ= essendo P µ= xi · n i N la media aritmetica. Esempio 16. Data la distribuzione statistica di frequenza mostrata in Figura 3.1.3 38 3 Indici di Variabilità Figura 3.1.3: distribuzione statistica di frequenza:voti di laurea Vogliamo determinare lo scostamento semplice medio e la deviazione standard. Basta organizzare i dati come mostrato in Figura 3.1.4 Figura 3.1.4: distribuzione statistica di frequenza La tabella è stata costruita tenendo conto che la media aritmetica vale: P µ= 1010 xi · n i = = 101 N 10 Detto ciò lo scostamento semplice medio vale: P Sµ = |xi − µ| ni 54 = = 5, 4 N 10 mentre la deviazione standard vale: s σ= P |xi − µ|2 ni = N r 39 566 p = 56, 6 = 7, 52 10 3 Indici di Variabilità 3.1.3 Distribuzione statistica di frequenza per classi Data la distribuzione statistica di frequenza per classi mostrata in Figura 3.1.5 Figura 3.1.5: distribuzione statistica di frequenza si ha che lo scostamento semplice medio vale: P |x̄i − µ| ni N P |x̄i − µ|2 ni N Sµ = mentre la deviazione standard vale: s σ= essendo P µ= x̄i · ni N la media aritmetica. 40 3 Indici di Variabilità 3.1.4 Varianza Un parametro molto usato in statistica e la varianza denita come il quadrato della deviazione standard σ : σ 2 ←− varianza Questo parametro non si può ritenere un indice di variabilità perché dimensionalmente non è come le modalità osservate del carattere X. 3.2 Dierenza semplice media Lo scostamento semplice medio Sµ e la deviazione standard σ sono due indici di variabilità costruiti prendendo come riferimento la media aritmetica. Si possono costruire altri indici di variabilità utilizzando un riferimento diverso dalla media aritmetica µ. Consideriamo come al solito una distribuzione statistica disaggregata : X = {x1 , x2 , ......, xN } Si deniscono scarti delle modalità osservate rispetto alla modalità x1 le quantità: |x1 − x1 | , |x2 − x1 | , |x3 − x1 | , ......, |xN − x1 | Visto che |x1 − x1 | = 0 è ovvio che gli scatti appena deniti sono in numero pari a N −1. Si deniscono scarti delle modalità osservate rispetto alla modalità x2 le quantità: |x1 − x2 | , |x2 − x2 | , |x3 − x2 | , ......, |xN − x2 | Visto che |x2 − x2 | = 0 è ovvio che anche gli scatti appena deniti sono in numero pari a N −1 . E così via deniscono scarti delle modalità osservate rispetto alla modalità xN le quantità: |x1 − xN | , |x2 − xN | , |x3 − xN | , ......, |xN − xN | Visto che |xN − xN | = 0 è ovvio che gli scatti appena deniti sono in numero pari a N − 1. Quindi per una distribuzione statistica disaggregata aventi N modalità osservate restano deniti N (N − 1) scarti delle modalità osservate. I dati vengono riorganizzati come mostrato nella seguente gura: 41 3 Indici di Variabilità Figura 3.2.1: distribuzione statistica disaggregata Si denisce dierenza semplice media ∆, la media aritmetica degli scarti delle modalità appena deniti: P ∆= |xi − x1 | + P |xi − x2 | + N (N − 1) P |xi − xN | P P ( |xi − xj |) = N (N − 1) Per la dierenza semplice media ∆ valgono le stesse proprietà viste per gli altri indici di variabilità: • in assenza di variabilità l'indice vale zero ; • maggiore è la variabilità, maggiore è l'i indice di variabilità. Consideriamo adesso il caso della distribuzione statistica di frequenza. I dati vengono riorganizzati come mostrato nella seguente gura: 42 3 Indici di Variabilità Figura 3.2.2: distribuzione statistica di frequenza In questo caso la dierenza semplice media vale: P ∆= |xi − x1 | ni + P |xi − x2 | ni + N (N − 1) P |xi − xK | ni P P ( |xi − xj | ni ) = N (N − 1) Inne nel caso della distribuzione statistica di frequenza per classi la dierenza semplice media vale: P ∆= |x̄i − x̄1 | ni + P |x̄i − x̄2 | ni + N (N − 1) P |x̄i − x̄K | ni P P ( |x̄i − x̄j | ni ) = N (N − 1) Si osservi che quest'ultima formula è quella valida per le distribuzioni di frequenza solo che utilizza i valori centrali delle classi al posto delle modalità. 43 3 Indici di Variabilità Esercizio 17. Data la distribuzione statistica disaggregata mostrata in Figura 3.2.3 Figura 3.2.3: distribuzione statistica disaggregata :voti di laurea Vogliamo determinare la dierenza semplice media. Esercizio 18. Data la distribuzione statistica di frequenza mostrata in Figura 3.2.3 Figura 3.2.4: distribuzione statistica di frequenza:voti di laurea Vogliamo determinare la dierenza semplice media. Esercizio 19. Raggruppare i dati precedenti in classi e rivalutare la dierenza semplice media. 44 3 Indici di Variabilità 3.3 Campo di variazione e dierenza interquartile Consideriamo una distribuzione statistica disaggregata : X = {x1 , x2 , ......, xN } e sia la corrispondente graduatoria Y = {y1 , y2 , ......, yN } si chiama campo di variazione la dierenza tra le modalità osservate yN e y1 : ∆C = yN − y1 si chiama dierenza interquartile la dierenza tra il quartile Q3 e il quartile Q1 : ∆q = Q3 − Q1 ∆C e ∆q sono due indici di variabilità di 0 larga massima0 e richiedono che la di- stribuzione statistica disaggregata ( di frequenza o di frequenza per classi ) sia una graduatoria. In particolare ∆C indica l'ampiezza dell'intervallo che contiene tutti i termini della graduatoria, mentre ∆q indica l'ampiezza dell'intervallo che contiene la metà dei termini della graduatoria. Sì osservi che la variabilità è tanto più grande quanto più grande è ∆q . 3.4 Indici percentuali di variabilità Per determinare gli indici percentuali di variabilità occorre prima di tutto individuare gli indici di variabilità relativi. Dividendo lo scostamento semplice medio Sµ per la media aritmetica µ si ricava lo scostamento semplice medio relativo: Sµr = Sµ µ Dividendo la deviazione standard σ per la media aritmetica µ si ricava la deviazione standard relativa : σr = σ µ Dividendo la dierenza semplice media ∆ per la media aritmetica µ si ricava la dierenza semplice media relativa: ∆r = 45 ∆ µ 3 Indici di Variabilità Dividendo in campo di variazione ∆C per la media aritmetica µ si ricava il campo di variazione relativo ∆Cr = ∆C µ Dividendo inne la dierenza interquartile ∆q per la media aritmetica µ si ricava la dierenza interquartile relativa ∆qr = ∆q µ Moltiplicando per 100 un qualunque indice di variabilità si ottiene il corrispondente indice di variabilità percentuale : Sµ% = Sµr · 100 ←− scostamento semplice medio percentuale σ% = σr · 100 ←− deviazione standard percentuale ∆% = ∆r · 100 ←− dif f erenza semplice media percentuale ∆C% = ∆Cr · 100 ←− campo di variazione percentuale ∆q% = ∆qr · 100 ←− dif f erenza interquartile percentuae Per le applicazioni ha rilevanza la deviazione standard percentuale chiamata pure coeciente di variazione: CV = σ% = σr · 100 ←− coef f iciente di variazione Gli indici di variabilità relativi e percentuali hanno il pregio di non dipendere dall'unità di misura del processo esaminato. Inoltre gli indici di variabilità relativi variano tra 0 e 1 mentre quelli di variabilità percentuale variano tra 0% e 100%. 3.5 Variabilità per distribuzioni secondo caratteri trasferibili: concentrazione Vogliamo determinare un indice di variabilità per il carattere trasferibile detto indice di concentrazione. Ricordiamo che un carattere si dice trasferibile se esso in parte si può spostare da una unità statistica all'altra ( per esempio il reddito). Consideriamo una graduatoria: Y = {y1 , y2 , ......, yN } 46 3 Indici di Variabilità Per essa la media aritmetica si scrive: P µ= yi N La quantità: AN = y1 + y2 + ...... + yN = X yi si chiama totale del carattere. Esso si può scrivere in termini della media aritmetica AN = µ · N In generale, la concentrazione è l'attitudine di un carattere ad essere posseduto da un numero ristretto di unità statistiche. Consideriamo le seguenti graduatorie: Y1 = {1, 1, 2, 2, 4, 4, 5, 5, 8, 8} Y2 = {0, 0, 1, 4, 4, 5, 5, 5, 8, 8} Y3 = {0, 0, 0, 0, 0, 0, 0, 0, 0, 40} Tutte e tre le graduatorie presentano lo stesso totale del carattere: AN 1 = 1 + 1 + 2 + 2 + 4 + 4 + 5 + 5 + 8 + 8 = 40 AN 2 = 0 + 0 + 1 + 4 + 4 + 5 + 5 + 5 + 8 + 8 = 40 AN 3 = 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 40 = 40 Cosa cambia allora tra le distribuzioni? Sicuramente la variabilità ma anche la concentrazione, ovvero il come il totale del carattere AN è distribuito. La graduatoria Y3 presente il totale del carattere tutto concentrato nell'ultima unità statistica e in questo caso si parla di massima concentrazione. Se viceversa il totale del carattere risulta equidistribuito tra le unità statistiche della graduatoria si ha concentrazione nulla. Per determinare la graduatoria avento totale del carattere AN = 40 e concentrazione nulla basta dividere per N=10 il totale del carattere per ottenere le equiparati possedute dalle unità statistiche: AN /10 = 40/10 = 4 Quindi Y4 = {4, 4, 4, 4, 4, 4, 4, 4, 4, 4} 47 3 Indici di Variabilità é la distribuzione a concentrazione nulla avente totale del carattere AN 4 = 40 Si osservi che avere una elevata concentrazione equivale a dire avere una elevata variabilità; avere una bassa concentrazione equivale a dire avere una bassa variabilità. La distribuzione Y4 ha concentrazione nulla e quindi variabilità nulla. 3.5.1 Indice del Gini Vogliamo adesso determinare l'indice del Gini che fornisce una misura della concentrazione. Consideriamo la graduatoria: Y = {y1 , y2 , ......, yN } il totale del carattere vale ovviamente: AN = y1 + y2 + ...... + yN Si chiama ammontare del carattere no all'unità statistica 1, la quantità: A1 = y1 Si chiama ammontare del carattere no all'unità statistica 2, la quantità: A1 = y1 + y2 Si chiama ammontare del carattere no all'unità statistica 3, la quantità: A1 = y1 + y2 + y3 e così via si chiama ammontare del carattere no all'unità statistica N, la quantità: AN = y1 + y2 + ...... + yN Si deniscono frazioni del carattere, gli ammontari del carattere fratto il totale del carattere: Q1 = A1 AN Q2 = A2 AN ... ... QN = AN =1 AN 48 3 Indici di Variabilità Supponiamo che il totale del carattere sia equidistribuito : Y = {y1 , y2 , ......; yN } = {a, a, ......, a} La graduatoria è equidistribuita e quindi risulta caratterizzata da una media pari al valore a delle modalità: µ=a Quindi il totale del carattere vale: AN = µ · N = a · N mentre gli ammontari del carattere valgono: A1 = a A2 = a + a = 2 · a A3 = a + a + a = 3 · a .. .. AN = N · a Quindi le frazioni del frazioni del carattere valgono: Q1 = A1 a 1 1 = = −→ P1 = AN N ·a N N Q2 = 2·N A2 2 2 = = −→ P2 = AN N ·a a N ... QN = AN N ·a N = = 1 −→ PN = =1 AN N ·a N Quando le frazioni del carattere sono riferite ad una distribuzione equidistribuita ssiindicano con i simboli P1 , P2 , ....., PN . Si denisce indice del Gini la quantità: (P1 − Q1 ) + (P2 − Q2 ) + ...... + (PN − QN ) = G= P1 + P2 + ...... + PN −1 49 P (Pi − Qi ) PN −1 i=1 Pi 3 Indici di Variabilità Osserviamo che se il totale del carattere è equidistribuito l'ndice del Gini risulta nullo: G= 0 (P1 − P1 ) + (P2 − P2 ) + ...... + (PN − PN ) = PN −1 = 0 P1 + P2 + ...... + PN −1 i=1 Pi Quindi G=0 equivale a dire concentrazione nulla. Vediamo adesso che valore assume l'indice del Gini quando si ha concentrazione massima. Consideriamo una distribuzione a concentrazione massima: Y = {y1 , y2 , ......; yN } = {0, 0, ......, AN } le frazioni del caratte valgono: Q1 = Q2 = y1 0 A1 = = =0 AN AN AN A2 y1 + y2 0+0 = = =0 AN AN AN ... QN −1 = AN −1 0 + 0 + ..... + 0 = =0 AN AN QN = AN =1 AN Note queste ultime l'indice di Gini si scrive: G= (P1 − Q1 ) + (P2 − Q2 ) + ...... + (PN −1 − QN −1 ) + (PN − QN ) = P1 + P2 + ...... + PN −1 = (P1 − 0) + (P2 − 0) + ...... + (PN −1 − 0) + (1 − 1) = P1 + P2 + ...... + PN −1 = P1 + P2 + ...... + PN −1 =1 P1 + P2 + ...... + PN −1 Quindi l'indice del Gini è un parametro che da una misura della concentrazione e risulta compreso tra 0 e 1, con 0 e 1 inclusi: 0≤G≤1 Pertanto se l'indice del Gini è vicino allo zero si ha bassa concentrazione viceversa se l'indice del Gini è vicino all'uno si ha alta concentrazione. Non è dicile provare che l'indice del Gini si può scrivere pure come segue: N 2 X G= (Pi − Qi ) N − 1 i=1 50 3 Indici di Variabilità Esercizio 20. Valutare con entrambe le formule date, l'indice del Gini per le seguenti graduatorie: Y1 = {1, 1, 2, 2, 4, 4, 5, 5, 8, 8} Y2 = {0, 0, 1, 4, 4, 5, 5, 5, 8, 8} Y3 = {0, 0, 0, 0, 0, 0, 0, 0, 0, 40} 3.5.2 Interpretazione geometrica dell'indice del Gini La formula: N 2 X (Pi − Qi ) G= N − 1 i=1 si presta ad una interpretazione geometrica. Il graco che da essa ne viene fuori si chiama curva di concentrazione o curva di Lorentz. Si chiama curva di Lorentz la spezzata che si ottiene congiungendo con dei segmenti di retta le coppie consecutive di punti di coordinate: (0, 0) , (P1 , Q1 ) , (P2 , Q2 ) , ......, (PN , QN ) ≡ (1, 1) Figura 3.5.1: curva di Lorentz 51 3 Indici di Variabilità Vediamo la curva di Lorentz nei casi particolari di equidistribuzione e di massima concentrazione. Nel caso di equidistribuzione si ha: P1 = Q1 ; P2 = Q2 ; ......; PN −1 = QN −1 e la curva di Lorenz si riduce ad un segmento di retta avente come estremi i punti di coordinate: (0, 0) , (1, 1) Figura 3.5.2: curva di Lorentz Nel caso di massima concentrazione si ha: P1 = 1 2 N −1 N ; P2 = ; ......; PN −1 = ; PN = =1 N N N N Q1 = 0; Q2 = 0; ......; QN −1 = 0; QN = 1 e la curva di Lorenz si riduce ad una spezzata formata dal segmento di retta di estremi: (0, 0) ; N −1 ,0 N e del segmento di retta gli estremi: 52 3 Indici di Variabilità N −1 , 0 ; (1, 1) N Figura 3.5.3: curva di Lorentz Riportiamo su uno stesso piano cartesiano la generica curva di Lorenz e quelle nel caso di equidistribuzione come mostrato in Figura 3.5.4. 53 3 Indici di Variabilità Figura 3.5.4: curva di Lorentz generica con curva di Lorentz nel caso di equidistribuzione Viene indicata con S l'aria compresa tra le due curve. Analogamente riportiamo su uno stesso piano cartesiano la curva di Lorenz nel caso di equidistribuzione e quella nel caso di massima concentrazione come mostrato in Figura 3.5.5. 54 3 Indici di Variabilità Figura 3.5.5: curva di Lorentz generica nel caso di massima concentrazione e curva di Lorentz nel caso di equidistribuzione L'area compresa tra le due curve viene indicata con SM AX e risulta essere chiaramente l'area del triangolo mostrato in Figura 3.5.5: SM AX = N −1 b·h = 2 2N Si dimostra che l'indice del Gini si può pure scrivere come segue: G= S SM AX Poiché SM AX = costante, indice del Gini G cresce con S. Dire che G cresce con S equivale a dire che la curva di Lorenz si allontana da quella di equidistribuzione. Se risulta: N >> 1 allora l'indice del Gini si può approssimare come segue: N N 2 X 2 X (Pi − Qi ) ' (Pi − Qi ) G= N − 1 i=1 N i=1 Tale approssimazione si chiama indice di concentrazione R : 55 3 Indici di Variabilità N 2 X R= (Pi − Qi ) N i=1 Inoltre se risulta N >> 1 si ha che: SM AX = e G= N 1 N −1 ' = 2N 2N 2 S SM AX ' S =2S 1/2 L'indice di concentrazione del Gini e l'indice di concentrazione R sono legati tra di loro mediante le relazioni: R= N −1 G N G= N R N −1 Vediamo adesso la concentrazione nel caso di distribuzione statistica di frequenza. Consideriamo una distribuzione statistica di frequenza ordinata ( graduatoria): Figura 3.5.6: distribuzione di frequenza L'ammontare del carattere no alla modalità xi vale: 0 Ai = x1 n1 + x2 n2 + ...... + xi ni mentre il totale del carattere vale: 0 AK = x1 n1 + x2 n2 + ...... + xK nK = X xi ni Come nel caso delle distribuzioni statistiche disaggregate si costruiscono i rapporti: 56 3 Indici di Variabilità Ni N 0 Pi = 0 Qi = Ai 0 AK e quindi l'indice di concentrazione R : N 2 X 0 0 Pi − Q i R= N i=1 Questa stessa formula si utilizza pure nel caso di distribuzione statistica di frequenza per classi avendo cura di denire però l'ammontare del carattere X no alla modalità xi come segue: 0 Ai = x̄1 n1 + x̄2 n2 + ...... + x̄i ni e il totale del carattere X come segue: 0 AK = x̄1 n1 + x̄2 n2 + ...... + x̄K nK = X x̄i ni essendo x̄i i valori centrali delle classi Ci rispettivamente. Se per ogni classe si conosce il totale T allora gli Aii valgono: 0 Ai = T1 + T2 + ...... + Ti con i = 1, 2, ..., K . 3.6 Indici di variabilità per caratteri qualitativi Una distribuzione statistica di frequenza secondo un carattere qualitativo presenta la minima eterogeneità ovvero la massima omogeneità quando tutte le unità del collettivo statistico hanno la stessa modalità del carattere; per contro la distribuzione presenta la massima eterogeneità quando le modalità hanno tutte la stessa frequenza: 57 3 Indici di Variabilità Figura 3.6.1: eterogeneità l'eterogeneità si misura attraverso l'indice di eterogeneità di Gini : C1 = 1 − X fi2 o attraverso l'indice di entropia : C2 = − X fi ln (fi ) essendo fi le frequenze relative della distribuzione di frequenza (odi frequenza per classi). 58 4 Indici di Forma 4.1 Denizioni Mentre le medie danno l'idea dell'ordine di grandezza del fenomeno studiato e gli indici di variabilità segnalano il grado di diversità tra le singole modalità osservate del fenomeno, gli indici di forma completano il quadro delle tecniche di analisi riguardo le distribuzioni statistiche di caratteri qualitativi. Questi indici si riferiscono nello specico a distribuzioni statistiche di frequenza e riguardano due aspetti: • il primo aspetto riguarda il maggiore o minore allontanamento della distribuzione dalla forma simmetrica; • il secondo aspetto riguarda il grado di deviazione della distribuzione rispetto alla distribuzione normale (curtosi ). Denizione. (Distribuzione statistica simmetrica) Consideriamo una distribuzione statistica di frequenza Figura 4.1.1: distribuzione statistica di frequenza avente media µ;consideriamo inoltre le seguenti coppie di modalità: (x1 , xK ) , (x2 , xK−1 ) , (x3 , xK−2 ) , ......., (xµ−1 , xµ+1 ) La distribuzione si dice simmetrica se per ciascuna coppia le modalità sono equidistanti dalla media e hanno la stessa frequenza come mostrato in Figura 4.1.2. 59 4 Indici di Forma Figura 4.1.2: simmetria distribuzione statistica di frequenza Se la distribuzione di frequenza è per classi allora questa si dirà simmetrica se le coppie di classi: (C1 , CK ) , (C2 , CK−1 ) , (C3 , CK−2 ) , ......., (Cm−1 , Cm+1 ) sono equidistanti dalla classe mediana Cm e hanno la stessa densità di frequenza comemostrato in Figura 4.1.3. Figura 4.1.3: simmetria distribuzione statistica di frequenza per classi Per una distribuzione simmetrica valgono le seguenti proprietà : 1. La media aritmetica coincide con la mediana; 2. la somma degli scarti dalla media aritmetica elevati ad una potenza dispari è uguale a zero: |x1 − µ|2p+1 + |x1 − µ|2p+1 + ...... + |x1 − µ|2p+1 = 0 60 per p = 0, 1, 2, .... 4 Indici di Forma 3. Il primo quartile il terzo quartile hanno la stessa distanza dalla mediana m: |Q1 − m| = |Q3 − m| Denizione. (asimmetria positiva e negativa) Una distribuzione è asimmetrica positiva se l'ammontare di frequenza ( o densità di frequenza ) è più elevata a sinistra della mediana (o della classe mediana): Figura 4.1.4: asimmetria positiva Denizione. Una distribuzione è asimmetrica negativa se l'ammontare di frequenza ( o densità di frequenza ) è più elevata a destra della mediana ( o della classe mediana ): Figura 4.1.5: asimmetria negativa 4.2 Indici di simmetria Una misura della simmetria di una distribuzione statistica di frequenza è data dal seguente indice di simmetria: K 1 1 X α1 = 3 (xi − µ)3 ni σ N i=1 se risulta: 61 4 Indici di Forma α1 = 0 la distribuzione è simmetrica. Se risulta α1 > 0 la distribuzione è asimmetrica positiva. Se risulta α1 < 0 la distribuzione è asimmetra negativa. Sì osservi che l'indice utilizza deviazione standard e media aritmetica. Esiste un altro indice di simmetria che utilizza invece mediana e quartili: α2 = (Q3 − m) + (m − Q1 ) (Q3 − m) + (m − Q1 ) Se risulta: α2 = 0 la distribuzione è simmetrica. Se risulta: α2 > 0 la distribuzione è asimmetrica positiva. Se risulta α2 < 0 la distribuzione è asimmetra negativa. Confrontando gli dici possiamo dire: • l'indice α1 non consente di dire se la simmetria è più o meno forte. Diveramente l'indice α2 consente di dire se la simmetria è più o meno forte; • l'indice α2 è molto sensibile ai valori molto piccoli e molto grandi mentre l'indice α2 no; • l'indice α1 non dipende dalla variabilità mentre l'indice α2 sì. Per una distribuzione statistica disaggregata , l'indice α1 si scrive: N 1 1 X (xi − µ)3 α1 = 3 σ N i=1 62 4 Indici di Forma 4.3 Curtosi Per curtosi si intende il grado di diversità tra una data distribuzione di frequenza e la distribuzione normale. La distribuzione normale è una distribuzione statistica di frequenza teorica caratterizzata da una funzione di densità di frequenza detta curva di Gauss la cui espressione analitica è: (x−µ)2 1 f (x) = √ e− 2 σ2 σ 2π In questa espressione σ è la deviazione standard e µ è la media aritmetica. Nella seguente gura viene mostrata la funzione densità di frequenza per la distribuzione normale ovvero la così detta curva di Gauss: Figura 4.3.1: curva di Gauss Dal graco risulta evidente che la media aritmetica è quel valore per cui la densità assume il valore massimo mentre la deviazione standard è un numero che determina il grado di concentrazione dell'ammontare di frequenza attorno alla media aritmetica: maggiore è la deviazione standard più la curva di Gauss risulta schiacciata sull'asse ~x: 63 4 Indici di Forma Figura 4.3.2: curve di Gauss Si dimostra che l'area sottesa dalla distribuzione normale risulta pari a 1: Asottesa = 1 Nella seguente gura sono riportati la distribuzione normale con media aritmetica µ e deviazione standard σ e una distribuzione statistica di frequenza per classi con medesima media aritmetica µ e medesima deviazione standard σ . Figura 4.3.3: Si parla di ipernormalità se la distribuzione statistica di frequenza per classi eccede nelle ordinate rispetto alla curva di Gauss; si parla di iponormalità in caso contrario: 64 4 Indici di Forma Figura 4.3.4: La curtosi si misura mediante l'indice y : y= K 1 1 X (xi − µ)4 ni − 3 σ 4 N i=1 Se risulta: y>0 si ha ipernormalità. Se risulta: y<0 65 4 Indici di Forma si ha iponormalità. Inne se risulta: y=0 si ha che la distribuzione di frequenza per classi è molto simile alla curva di Gauss. 66 5 Numeri indici Occupiamoci del problema della misura delle variazioni temporali di un fenomeno tramite particolari rapporti statistici detti numeri indici. I numeri indici si distinguono in numeri indici elementari e numeri indici complessi. Tali indici statistici sono collegati alle medie e hanno attinenza con la variabilità. 5.1 Serie storica Per introdurre i numeri indici elementari occorre fare riferimento ad una particolare distribuzione statistica detta serie storica. Una serie storica è una distribuzione statistica in cui le unità statistiche sono in tempi successivi: 1, 2, 3, ........K e le modalità del carattere sono le intensità: a1 , a2 , a3 , ........aK Una serie storica viene schematizzata come segue: Figura 5.1.1: serie storica 5.2 Numeri indici elementari a base ssa h Consideriamo una serie storica: 67 5 Numeri indici Figura 5.2.1: serie storica Si chiamano numeri indici elementari a base ssa h, tutti i rapporti che si ottengono dividendo le intensità per l'intensità ah dove h è un tempo che può essere 1,2,3,...,K: h I1 = a1 ah h I2 = a2 ah . . h IK = aK ah Moltiplicando per 100 si ricavano i corrispondenti indici percentuali. Esempio 21. Data la serie storica mostrata in Figura 5.2.2: Figura 5.2.2: serie storica Determinare i numeri indici elementari a base ssa h=2003. 68 5 Numeri indici 2003 2003 I 2004 = I 2003 = 43856 = 1 (100%) 43856 45097 = 1, 028 (102, 8%) ←− Questo indice indica che nel 2004 43856 il numero di divorzi è incrementato del 2, 8% rispetto al 2003 I 2005 = 47063 = 1, 073 (107, %) 43856 2003 I 2006 = 49534 = 1, 129 (112, 9%) 43856 2003 I 2007 = 50669 = 1, 155 (115, 5%) 43856 2003 Esiste un criterio che consente di cambiare la base dei numeri indici senza per forza avere i dati originari come spiega la seguente proposizione. Proposizione 22. Supponiamo di conosceere i numeri indici elementari: h I1, h I 2 , ....., h I K , allora i numeri indici elementari di base j si ottengono dividendo per l'indice h I j cioè j I1 = I1 , h Ij h j I2 = I2 , ....., j I K = h Ij h IK , h Ij h 5.3 Numeri indici elementari a base mobile Sia data la serie storica: Figura 5.3.1: serie storica si chiamano numeri indici elementari a base mobile le quantità: 69 5 Numeri indici i2 = a2 a1 i3 = a3 a2 . . iK = aK aK−1 Tali inidici mettono a confronto le singole intensità con l'intensità del tempo precedente. Proposizione 23. (base ssa−→base mobile). Supponiamo di conoscere i numeri indici elementari a base ssa h: h I1, h I 2 , ....., h I K , allora i numeri indici elementari a base mobile valgono: i2 = h h I2 , I1 j i3 = h h I3 , ....., j i K = I2 h h IK I K−1 , Proposizione 24. (base mobile −→base ssa ). Supponiamo di conoscere i numeri indici elementari a base mobile: i2 , i3 , ....., iK ssati due tempi h e t, il numeri indici elementare a base ssa h al tempo t vale: h I t = ih+1 · ih+2 · ..... · it h It = se h < t oppure: 1 it+1 · it+2 · ..... · ih 70 se h > t 5 Numeri indici 5.4 Variazioni Relative 5.4.1 Variazione relativa Consideriamo una serie storica: Figura 5.4.1: serie storica e siano dati due tempi h e t tali che h<t la dierenza relativa tra le intensità del fenomeno nei tempi h e t è data da: h vt = at − ah ah e prende il nome di variazione relativ a oppure incremento relativo se risulta positivo o decremento relativo se risulta negativo. Si osservi che h vt = at ah at at − ah = − = −1 = h It −1 ah ah ah ah ossia: h vt = h I t − 1 essendo h It = un indice a base mobile. 5.4.2 Variazione relativa media Consideriamo una serie storica: 71 at ah 5 Numeri indici Figura 5.4.2: serie storica e siano dati due tempi h e t tali che h<t Siano: ih+1 , ih+2 , ....., it i numeri indici a base mobile e relativi ai tempi h + 1, h + 2,....,t, allora la variazione relativa media dal tempo h al tempo t è data da: h v̄ t = p t−h ih+1 · ih+2 · ..... · it − 1 tenendo conto che it = h I t = at = ih+1 · ih+2 · ..... · it ah si ha pure che r h v̄ t = t−h at −1 ah 5.5 Numeri indici complessi I numeri indici complessi sono degli indici statistici che danno una misura della variazione relativa media di un insieme di grandezze tra due tempi successivi. Siano p1b , p2b , ........, pKb i prezzi di K-beni riferiti al tempo b e siano p1t , p2t , ........, pKt i prezzi degli stessi K-beni riferiti al tempo t. Consideriamo i rapporti: 72 5 Numeri indici p1b p2b pKb , , ........, p1t p2t pKt che sono numeri indici elementari. Indichiamo con q1b , q2b , ........, qKb le quantità di K-beni riferiti al tempo b e con q1t , q2t , ........, qKt le quantità degli stessi K-beni riferiti al tempo successivo t. La variazione media dei prezzi dal tempo base b al tempo corrente ti per K-beni è data da: b v̄ t = IL − 1 b v̄ t = IP − 1 oppure da: dove: IL = p1t q1b + p2t q2b + ........ + pKt qKb p1b q1b + p2b q2b + ........ + pKb qKb si chiama indice di Laspeyres e IP = p1t q1t + p2t q2t + ........ + pKt qKt p1b q1t + p2b q2t + ........ + pKb qKt si chiama indice di Phasce. La variazione relativa media in condizioni ideali vale: b v̄ t = IF − 1 essendo IF = p IL · IP l'indice di Fisher. 73