Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Unità – Carattere – Modalità { { { Unità statistica: unità elementare del collettivo oggetto di studio Carattere: è ogni aspetto del fenomeno oggetto di studio osservabile su un insieme di unità statistiche Modalità: è ogni modo diverso di presentarsi del carattere nelle unità Caratteri Se il fenomeno che stiamo analizzando è il curriculum vitae degli studenti, esempi di carattere sono: { { { { { { { tipo di maturità voto di maturità anno di conseguimento di maturità età (o data di nascita) sesso sport praticati … 1 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Caratteri e Modalità Nome Età Punt. Anno Sport Rossi A. 21 F Classica 95 2003 Ritmica Bianchi D. 19 M Scientifica 88 2005 Calcio Verdi G. 24 F Sociale 84 2000 Nuoto Gialli S. 22 F Linguistica 96 2002 Atletica Neri M. 25 M Scientifica 98 2003 Pallanuoto { { Sesso Maturità A ogni riga corrisponde un individuo del quale sono stati rilevati alcuni caratteri In corrispondenza di ogni individuo, ciascun carattere assume una determinata modalità Protocollo elementare Unità statistiche Carattere Protocollo elementare 2 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Protocollo elementare { E’ l’insieme dei valori assunti da un carattere oggetto di indagine nelle unità statistiche del collettivo in esame Collettivo in esame: 88 individui iscritti al corso di Statistica Carattere osservato: Voto conseguito all’esame di Statistica {29, 29, 24, 20, 22, 28, 19, 19, 21, 26, 20, 24, 21, 19, 28, 22, 29, 26, 23, 28, 30, 20, 27, 22, 27, 20, 24, 25, 29, 23, 23, 24, 22, 25, 27, 26, 23, 18, 19, 26, 22, 25, 24, 20, 22, 21, 29, 30, 19, 24, 24, 26, 26, 29, 30, 29, 22, 27, 27, 29, 26, 26, 22, 27, 24, 29, 30, 20, 24, 24, 28, 23, 21} 25, 18, 20, 25, 21, 25, 26, 26, 28, 18, 23, 29, 22, 26, 22, Campione di 30 unità - Indagine Banca d’Italia 3 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Concentrazione di PM10 rilevato nelle province dell’Emilia Romagna nel periodo 4-13 febbraio 2005 04-feb 05-feb 06-feb 07-feb 08-feb 09-feb 10-feb 11-feb 12-feb 13-feb PIACENZA 64 44 51 75 75 94 112 106 96 26 PARMA 63 51 47 54 66 103 92 73 68 40 REGGIO NELL'EMILIA 60 46 43 53 53 78 76 71 65 50 MODENA 48 38 54 52 51 97 99 82 96 58 BOLOGNA 70 44 37 59 60 82 69 48 86 60 FERRARA 51 33 43 50 55 106 128 123 150 89 RAVENNA 38 35 46 59 68 93 78 46 59 49 FORLI' 54 n.d. 28 n.d. n.d. 56 76 52 48 44 RIMINI 70 42 41 66 76 86 90 62 41 40 Livelli PM10 Superiore al limite di legge (al 2005) >50 Entro il limite di legge 0-50 Dato non disponibile n.d. Fonte: www.liberiamolaria.it Caratteri qualitativi Il carattere è detto qualitativo se non assume valori numerici, ma ammette gradi o attributi distinti Carattere qualitativo Mutabile statistica 4 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Carattere qualitativo { Ordinabile : tra i gradi è possibile stabilire una relazione d’ordine z z { Ordinabile rettilineare (categoria alberghiera, titolo di studio) Ordinabile ciclico (mese, stagione) Sconnesso : non esiste un ordinamento degli attributi del carattere z (nazione di nascita, laurea conseguita, colore degli occhi, genere) Caratteri quantitativi Un carattere si dice quantitativo se assume valori numerici Carattere quantitativo Variabile statistica 5 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Carattere quantitativo { Discreto o enumerabile: può assumere solo valori interi z { (Numero di componenti la famiglia, numero di dipendenti di un’azienda) Continuo o misurabile: può assumere tutti i valori di un intervallo z (statura, temperatura, tempo di percorrenza di una distanza) Carattere Carattere oggetto oggetto di di studio studio Attributi qualitativi Attributi quantitativi Mutabile Mutabile statistica statistica Variabile Variabile statistica statistica Gli attributi ammettono ordine di successione? I valori assunti possono appartenere all’insieme NO NO Mutabile Mutabile statistica statistica sconnessa sconnessa SI SI Mutabile Mutabile statistica statistica ordinata ordinata Interi Interi Variabile Variabile statistica statistica discreta discreta Reali Reali Variabile Variabile statistica statistica continua continua 6 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Simbologia { { Mutabili : si indicano con le prime lettere dell’alfabeto (A, B, …) Variabili : si indicano con le ultime lettere dell’alfabeto (X, Y, …) Con le corrispondenti lettere minuscole si indicano le loro determinazioni in una unità statistica. L’insieme delle modalità di un carattere rilevato su n unità è così indicato: per la mutabile A: {a1, a2, …, aj, …, an} per la variabile X: {x1, x2, …, xj, …, xn} Distribuzione di frequenza { { E' la prima forma di sintesi statistica dei dati, poiché riassume le informazioni contenute nell’insieme dei valori individuali Non è altro che una classificazione delle n unità statistiche in k classi (dove k≤n) formate sulla base delle modalità del carattere osservato nel collettivo 7 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Distribuzione di frequenza { { Nella distribuzione di frequenza sono raggruppate nella medesima classe tutte le unità che hanno la medesima modalità del carattere considerato Ogni classe della distribuzione è definita da una coppia di elementi z z Modalità del carattere Corrispondente frequenza Rappresentazione di distribuzioni di frequenza mediante tabelle A ni X ni a1 n1 x1 n1 a2 n2 x2 n2 xi ni xk nk … … ai ni … … ak nk n n 8 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Esempio di distribuzione di frequenza per una variabile statistica Modalità Voti 18 19 20 21 22 23 24 25 26 27 28 29 30 Totale Studenti 3 5 7 5 10 6 10 6 11 6 5 10 4 88 Frequenze Esempio di distribuzione di frequenza per una mutabile statistica { { Unità statistiche: residenti nella provincia di Bologna al 01-01-2005 Carattere osservato: zona altimetrica del comune di residenza Zona altimetrica di residenza Montagna Residenti nella provincia di BOLOGNA 53.274 Collina 577.937 Pianura 313.068 TOTALE 944.279 9 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Requisiti di una distribuzione di frequenza { { Requisito dell’esaustività: ogni unità statistica deve appartenere a una delle classi, cioè deve poter essere classificata Requisito della disgiuntività: ogni unità statistica non può appartenere contemporaneamente a due classi distinte Distribuzioni per variabili continue { { { Nelle distribuzioni di frequenza per variabili continue la formazione di classi presuppone la divisione in intervalli e il raggruppamento delle unità entro limiti assunti come valori estremi di ogni intervallo Le unità non sono necessariamente portatrici dello stesso livello del carattere Devono essere definiti l’ampiezza e un valore di riferimento per ciascun intervallo, che in genere è costituito dal valore centrale 10 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Ampiezza di un intervallo L’intervallo xi-1|-xi, come l’intervallo xi-1-|xi ha ampiezza wi uguale alla differenze tra i suoi estremi wi = xi - xi-1 Valore centrale di un intervallo Il valore centrale dell’intervallo di estremi xi-1,xi è dato dalla semisomma degli estremi stessi x̂i = xi −1 + xi 2 Esempio Numero di abitanti 0 —| 1000 1000 —| 2000 2000 —| 5000 5000 —| 10000 10000 —| 20000 20000 —| 50000 50000 —| 100000 100000 —| 250000 250000 —| 500000 Oltre 500000 Totale Numero di comuni 1956 1706 2224 1164 589 324 90 34 6 6 8102 11 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Esempio Classi di età Residenti nella provincia di BOLOGNA 0 - 14 anni 111.317 15 - 39 anni 283.995 40 - 64 anni 325.903 65 anni e oltre 223.064 TOTALE 944.279 Classi di età 0 - 4 anni Residenti nella provincia di BOLOGNA 40.775 5 - 9 anni 36.388 10 - 14 anni 34.154 15 - 19 anni 31.768 20 - 24 anni 37.374 25 - 29 anni 56.715 30 - 34 anni 77.364 …. … 65 - 69 anni 59.314 70 - 74 anni 59.314 75 - 79 anni 52.993 80 anni e oltre 46.559 TOTALE 944.279 12 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Esempi di distribuzioni … … con carattere qualitativo sconnesso: distribuzione di individui per condizione professionale, residenza, status occupazionale … con carattere qualitativo ordinabile: distribuzione di individui per livello di istruzione, di giudizi in scala per attributi, di occupati di un azienda per livello occupato nell'organigramma Esempi di distribuzioni … … con carattere quantitativo discreto non raggruppato in classi distribuzione delle famiglie per numero di componenti (1, 2,…, 8), degli individui per numero di incidenti sul lavoro, delle aziende per numero di clienti, per numero di addetti … con carattere quantitativo discreto raggruppato in classi distribuzione delle famiglie per numero di componenti (1--2, 3--5,>=6), del numero dei comuni per ampiezza demografica 13 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Esempi di distribuzioni … … con carattere quantitativo continuo raggruppato in classi distribuzione degli individui per età, reddito, spesa; delle aziende per fatturato, valore aggiunto Distribuzioni di frequenza relativa { { A partire dalla distribuzione di frequenza è possibile costruire la distribuzione delle frequenze relative e percentuali Frequenza relativa di una classe: è il rapporto tra la frequenza della classe e il numero complessivo di unità statistiche fi=ni/n { Le frequenze relative descrivono il peso delle classi sul complesso delle osservazioni, mentre le frequenze (assolute) indicano la consistenza numerica delle classi 14 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Distribuzioni di frequenza C Frequenze c1 c2 … ci … ck n1 n2 … ni … nk n Frequenze relative Frequenze percentuali f1= n1/ n f 1 ·100 f2= n2/ n f 2 · 100 … fi= ni/ n … f i · 100 … fk= nk/ n … · 100 1 fk 100 Distribuzioni di frequenza cumulata { { { A partire dalla distribuzione di frequenza è possibile costruire la distribuzione delle frequenze cumulate (crescente e decrescente) Le classi sono formate raggruppando le unità che presentano un livello del carattere al più uguale (distribuzione crescente), o almeno uguale (distribuzione decrescente), ad una soglia che varia secondo le modalità del carattere stesso Tale distribuzione è definita solo per caratteri quantitativi e qualitativi ordinabili rettilineari 15 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Distribuzioni di frequenza cumulata C Frequenze c1 c2 … ci … ck n1 n2 … ni … nk n Frequenze cumulate (crescenti) Frequenze cumulate relative N1= n1 F1= f1 N2= n1+ n2 F2= f1+ f2 … … N i = n 1 +n 2+... n i F i = f 1 +f 2+… f i … … n N k = n 1 +n 2 + … n k =1 F k = f 1 +f 2 + … f k =1 Distribuzioni di frequenza cumulata C Frequenze c1 c2 … ci … ck n1 n2 … ni … nk n Frequenze cumulate (decrescenti) Frequenze cumulate relative N1= n F 1 =1 N 2 = n k +n k-1 + ...+ n 2 F 2 = f k +f k-1 + … +f 2 … … N i = n k +n k-1+... n i F i = f k +f k-1+… f i … … Nk=nk Fk= fk 16 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" ESERCIZIO: Nella tavola è riportata la distribuzione del valore aggiunto per unità di lavoro (UL) dell’industria in senso stretto nelle 20 regioni italiane, per gli anni 1995 e 2001 (in migliaia di eurolire 1995). Cosa emerge dal confronto tra le due distribuzioni relative al valore aggiunto regionale per UL ? Valore aggiunto 31 35 38 41 44 46 50 35 38 −| 41 −| 44 −| 46 −| 50 −| 58 −| −| Totale Frequenze 1995 2001 3 1 3 2 4 5 6 4 2 4 1 1 1 3 20 20 Elaborazioni da dati di fonte Istat Nella tabella che segue sono riportate le distribuzioni delle frequenze relative nei due anni considerati, da cui si può osservare che nel 2001 il peso delle classi a cui corrisponde un minor VA per UL è minore rispetto al 1995. Può essere interessante confrontare le due distribuzioni cumulate Valore aggiunto 31 −| 35 35 −| 38 38 −| 41 41 −| 44 44 −| 46 46 −| 50 50 −| 58 Totale Frequenze relative 1995 2001 0,15 0,05 0,15 0,10 0,20 0,25 0,30 0,20 0,10 0,20 0,05 0,05 0,05 0,15 1 1 17 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Nella tabella che segue sono riportate le due distribuzioni delle frequenze cumulate decrescenti. Dal loro confronto emerge con chiarezza che si è avuto un miglioramento dal 1995 al 2001. Le frequenze della seconda distribuzione, infatti, sono più elevate di quelle della prima. Ciò significa che nel 2001 è sempre maggiore rispetto al 1995 la frazione di regioni che hanno VA per UL superiore a un dato valore Frequenze relative cumulate Valore aggiunto (decrescente) 1995 2001 1,00 1,00 31 −| 35 0,85 0,95 35 −| 38 0,70 0,85 38 −| 41 0,50 0,60 41 −| 44 0,20 0,40 44 −| 46 0,10 0,20 46 −| 50 0,05 0,15 50 −| 58 Distribuzione di intensità (o quantità) { { Si ottiene come risultato congiunto dell'operazione di classificazione del collettivo rispetto ad un carattere e di misurazione di un carattere quantitativo all'interno di ciascuna classe Il carattere rispetto al quale si effettua la classificazione può coincidere o no con quello che viene misurato all'interno di ogni classe. 18 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Piemonte Valle d'Aosta Comuni Superficie 1.206 2.540.246 74 326.324 1.546 2.386.280 Trentino-Alto Adige 339 1.360.682 Bolzano-Bozen 116 739.992 Trento 223 620.690 Veneto 581 1.839.885 Friuli-Venezia Giulia 219 785.839 Liguria 235 542.155 Emilia-Romagna 341 2.211.734 Toscana Lombardia 287 2.299.351 Umbria 92 845.604 Marche 246 969.406 Lazio 378 1.723.597 Abruzzo 305 1.076.271 Molise 136 443.768 Campania 551 1.359.024 Puglia 258 1.935.790 Basilicata 131 999.461 Calabria 409 1.508.055 Sicilia 390 2.571.140 Sardegna 377 2.408.989 ITALIA 8.101 30.133.601 Distribuzione dei Comuni italiani, e relativa superficie territoriale, per regione al 31.12. 2004 Esempi di distribuzione di frequenza e distribuzione di intensità Distribuzione delle unità locali delle imprese e addetti per classe di addetti – (Censimento Industria e Servizi 1991) Numero di addetti 0 1 2 3--5 6--9 10--15 16--19 20--49 50--99 100--199 200--249 250--499 500--999 1000 e piu' Totale Unità locali Addetti 13.810 1.741.455 790.080 667.358 204.101 101.727 31.257 59101 14.807 6.397 1.107 2.003 693 283 3634179 0 1.741.455 1.580.160 2.444.687 1.463.517 1.222.802 541.447 1725115 1.014.309 870.763 246.134 680.322 470.874 572.717 14574302 19 Marilena Pillati - Seminari di Statistica (SVIC) "Le distribuzioni statistiche" Serie e seriazione Se un carattere è qualitativo la distribuzione è detta SERIE (di frequenze o di intensità). In particolare se il carattere è costituito da z tempo serie temporale z carattere geografico serie territoriale Se un carattere è quantitativo la distribuzione è detta SERIAZIONE (di frequenze o di intensità) 20