Lezione 2 CARATTERI DEI DATI: approfondimento (Borra-Di Ciaccio, cap. 1,2) STATISTICA L-33 – a.a. 2016/17 Prof. G. Pellegrini Facoltà di Scienze Politiche – “La Sapienza” 1/1 Collettivo e Unità Statistiche • Una pluralità di “oggetti” dotati di almeno un carattere comune (variabile, cioè quantitativa, o mutabile, cioè qualitativa) costituisce un “collettivo, o insieme, statistico” • Ciascun oggetto è una “unità statistica” e come tale concorre alla determinazione delle proprietà (statistiche) dell'insieme. • Il carattere o variabile statistica è un aspetto che caratterizza i fenomeno e può assumere varie modalità, qualitative o quantitative. STATISTICA L-33 – a.a. 2011/12 - Prof. G. Pellegrini Facoltà di Scienze Politiche – “La Sapienza” 1/2 Un esempio di dati osservati Nome Età Sesso Titolo di studio Attività Peso (kg) Punteggio esercizi Rossi M. 32 M laurea occupato 72 65 Bianchi G. 39 F laurea occupato 55 55 Nicoletti C. 46 M diploma disoccupato 79 53 Marcelli F. 28 M diploma studente 63 78 Petrone A. 51 F diploma casalinga 64 21 1/3 Suddivisione in classi • • • • • n. di classi adeguato al problema classi disgiunte includere tutte le modalità del carattere quale ampiezza delle classi? intervalli aperti a destra o a sinistra STATISTICA L-33 – a.a. 2011/12 - Prof. G. Pellegrini Facoltà di Scienze Politiche – “La Sapienza” 1/4 Classi di caratteri continui (1) Come rilevare e classificare i caratteri quantitativi continui, poiché esiste sempre un limite alla misurazione? (es. altezza in cm o mm ecc.) Costruire delle classi di modalità, all’interno delle quali esiste continuità di carattere (es. altezza da 1,60 a 1,70; da 1,70 a 1,80 ecc.) Le classi devono essere disgiunte (ovvero non si devono sovrapporre) e esaustive (contenere tutte le modalità possibili del carattere) STATISTICA A-D – a.a. 2010/11 - Prof. G. Pellegrini Facoltà di Scienze Politiche – Università “La Sapienza” di Roma 3/5 Classi di caratteri continui (2) • Quindi non ci deve essere ambiguità nell’attribuire una unità ad una classe e non ad un’altra, e dobbiamo poter collocare tutte le unità statistiche. • Come scrivere le classi in modo univoco? • Si usa questa simbologia: |-| o -| o |La barra verticale | indica che l’estremo è compreso all’interno della classe: 14-|25=la modalità 25 è compresa, quella 26 no 25-|30= la modalità 25 non è compresa, 30 si STATISTICA A-D – a.a. 2010/11 - Prof. G. Pellegrini Facoltà di Scienze Politiche – Università “La Sapienza” di Roma 3/6 Classi di caratteri continui Studenti Guido Stefano Monica Damiano Esempio: Tabella Sesso Anni Altezza M 19 1,80 M 18 1,75 F 19 1,68 M 20 1,78 Classi di altezza n 1,60 |– 1,70 1 1,70 |– 1,80 2 1,80 |– … 1 3/7 Classi di caratteri continui Modalità intervallari o per intervalli • variabili continue -> scelta di necessità • variabili discrete -> scelta di opportunità (in caso di caratteri discreti in intervalli, non è strettamente necessario ma è consigliabile la precedente notazione: 1-10 11-30 31-50 è equivalente a 0-|10 10-|30 30-|50 3/8 Esempio Dalla tabella precedente: ore di studio Frequenze Classi di frequenze Ore ni Ore ni 3 1 2 -| 5 7 4 4 5 -| 6 4 5 2 6 -| 8 3 6 4 7 2 8 1 3/9 Esempio Si noti che l’uso di frequenze comporta comunque la perdita di informazioni Esempio: sigarette fumate al giorno Ind. ni Classi di frequenze ni 1 0 0 |- 5 3 2 0 5 |- 10 3 3 0 4 5 5 7 6 9 3/10 Distribuzione delle aziende secondo il numero di dipendenti xi ni 0-|10 14 10-|20 4 20-|30 2 30-|40 3 40-|60 3 60-|80 1 Totale 27 3/11 Famiglie italiane per intervalli di reddito annuo reddito (migliaia di euro) -| 10 10 -| 15 15 -| 20 20 -| 30 30 -| 45 45 -| 70 70 -| totale n° famiglie (in migliaia) 366 619 701 1612 1964 1774 1099 8135 3/12 Esempio E ’ data la distribuzione di 1863 famiglie italiane secondo il numero di componenti. Numero di componenti (xi) 1 2 3 4 5 6 totale Numero di famiglie (ni) 332 440 412 401 177 101 1863 3/13 Frequenze relative Numero di componenti (xi) Numero di famiglie (ni) 1 332 2 Frequenze relative (fi) fi 332/1863 0.178 440 440/1863 0.236 3 412 412/1863 0.221 4 401 401/1863 0.215 5 177 177/1863 0.096 6 101 101/1863 0.054 tot 1863 1863/1863 1 3/14 Frequenze cumulate (non decrescenti) Numero di famiglie (ni) X <= xi Frequenze cumulate (Ni) Ni 332 <= 1 332 332 440 <= 2 332+440 772 412 <= 3 332+440+412 1184 401 <= 4 332+440+..+401 1585 177 <= 5 332+440+..+ 177 1762 101 <= 6 332+440+..+ 101 1863 Tot. 1863 3/15 Frequenze relative cumulate (non decrescenti) X <= xi Ni Frequenze relative cumulate (Fi) <= 1 332 332/1863 0.178 <= 2 772 772/1863 0.414 <= 3 1184 1184/1863 0.636 <= 4 1585 1585/1863 0.851 <= 5 1762 1762/1863 0.946 <= 6 1863 1863/1863 1.000 Fi 3/16