Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Materiale didattico: I file sono, generalmente, in pdf. Per leggerli, scarica Adobe Acrobat Professional, Professional disponibile gratuitamente grat itamente sul s l sito www.adobe.com Martedì Mercoledì Mercoledì ore 14-17 ore 9-11 ore 14-16 aula Abside aula A aula A (esercitazioni) Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino (periodo del Corso): Martedì Cristina Davino (in alternativa) ore 17-18,30 Piazza Strambi, 1 (Terzo piano) D Piccolo (2004) – Statistica per le decisioni – Il Mulino. D. Mulino S. Borra,, A. Di Ciaccio (2008) ( ) – Statistica – Metodologie g per le scienze economiche e sociali – McGraw-Hill. [email protected] Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino (più ne fate, meglio è) S. Bernstein, R. Bernstein, Statistica descrittiva, Collana Schaum’s, 2003 S. Bernstein, R. Bernstein, Calcolo delle probabilità, probabilità Collana Schaum’s Schaum’s, 2003 S. Bernstein, R. Bernstein, Statistica inferenziale, Collana Schaum’s, 2003 Cristina Davino “Se mi rimanesse un’ora sola da vivere vorrei trascorrerla ad una l i lezione di statistica t ti ti perché hé sembrerebbe b bb durare d per sempre” ” Lamento di uno studente “Ci sono tre tipi di menzogne: le bugie, le grandi bugie e le statistiche” Benjamin Disraeli ”Se si muove è biologia, se cambia colore è chimica, se si rompe è fisica, se ti fa dormire è statistica” Bob Hogg, Università dello Iowa ” Non mi fido molto delle statistiche, perché un uomo con la testa nel forno acceso e i piedi nel congelatore statisticamente ha una temperatura media ” A. Montanari, P. Agati, D.G. Calò, Statistica Collana OPEN Statistica, OPEN, Masson Masson, Milano Milano, 1998 Charles Bukowski Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino E ll’insieme E’ insieme delle metodologie per lo studio di fenomeni che hanno l’attitudine a variare. Comprende la raccolta, l’elaborazione e la definizione di informazioni per agevolare sia l’analisi dei dati che i processi decisionali. Un dato è una qualsiasi misurazione di un qualsiasi fenomeno. Cristina Davino Nel marketing: marketing per valutare la soddisfazione dei propri clienti al fine di migliorare/correggere le proprie politiche commerciali In Economia: Economia p per costruire modelli di previsione economica per l’intervento in Paesi in via di sviluppo Un informazione è un dato, Un’informazione dato o un insieme di dati, dati semplici o elaborati, elaborati che ci servono per: Prevedere Capire In medicina: medicina Nel sequenziamento q del g genoma umano e nella ricerca di patologie genetiche Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino In campo sociale: sociale - per la progettazione e gestione di indagini campionarie e so sondaggi dagg demoscopici; de oscop c ; - per la programmazione e valutazione dei servizi sociali e sanitari; - per la rilevazione dei comportamenti e motivazioni soggettive in svariati campi (processi educativi, espressioni di voto, voto mobilità sociale e turistica turistica, sport sport, tempo libero e comunicazione, psicologia). Ogni risultato va interpretato interpretato; Ogni interpretazione può essere giusta o sbagliata, utile o inutile, rilevante o irrilevante rispetto al problema che dobbiamo risolvere; Ciò su cui si deve essere d’accordo è il processo che ha portato a quel risultato. Es : Es.: Da un’indagine un indagine campionaria condotta sulle matricole universitarie è risultato che il 70% ha dato un giudizio buono sui propri docenti. Questo risultato può essere considerato… Positivo Perché e c é è, in asso assoluto, u o, u una a%a alta; a; Negativo Perché la percentuale media degli anni precedenti era oltre l’80%. Ma ciò che è importante “Conoscere per governare” (Luigi Einaudi) Cristina Davino (d un punto di vista (da i statistico) i i ) è: Come è stato scelto il campione? “Non si p può gestire g ciò che non si può p misurare” (K l e Norton) (Kaplan N t ) Come si è determinata la sua numerosità? Qual è l’errore associato a questo risultato e quale il livello di “fiducia” che noi riponiamo in esso? Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Ci occuperemo di alcune tecniche e procedure che vengono utilizzate per raccogliere, organizzare, presentare, analizzare e interpretare dati numerici al fine di (far) prendere decisioni efficaci. Tabelle, Grafici, Indici sintetici La statistica descrittiva può essere definita come l’insieme dei metodi che concernono la raccolta, il compendio, la presentazione e la definizione di un insieme di dati per descriverne in maniera g le varie caratteristiche. adeguata Generalizzazione dei risultati La statistica inferenziale può essere definita come l’insieme l insieme dei metodi che, utilizzando lo strumento probabilistico, permettono la stima di una caratteristica di una popolazione, o una decisione d i i d da prendere d riguardo i d una popolazione, l i e che h sono basati soltanto sui risultati di un campione Cristina Davino Gli argomenti fondamentali del corso sono: 1. La raccolta dei dati 2. L’organizzazione dei dati: tabelle e grafici 3. Gli indici sintetici: tendenza centrale e variabilità S l per gli Solo li studenti t d ti 4. Le statistiche bivariate che hanno almeno 5. Elementi di teoria della probabilità 6 CFU 6. Le variabili casuali: discrete e continue 7. Le distribuzioni campionarie 8. La stima per intervalli Solo o per pe gli g studenti stude t che c e hanno a o almeno a e o 8 CFU C U 9 La verifica delle ipotesi So 9. 10. La verifica delle ipotesi (test sulla varianza di una popolazione) 11. La verifica delle ipotesi (t t sulla (test ll diff differenza tra t i parametri t i di due d popolazioni) l i i) 12. Test di indipendenza 13. Software per l'analisi dei dati (questa parte del corso si svolgerà in laboratorio) Solo per gli studenti che hanno 12 CFU Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Cristina Davino E ll’insieme E’ insieme delle metodologie per lo studio di fenomeni che hanno l’attitudine a variare. Studiare le metodologie Comprende la raccolta, l’elaborazione e la definizione di informazioni per agevolare sia l’analisi dei dati che i processi decisionali. Fare esercizi per la prova scritta Un dato è una qualsiasi misurazione di un qualsiasi fenomeno. Un informazione è un dato, Un’informazione dato o un insieme di dati, dati semplici o elaborati, elaborati che ci servono per: Prevedere Capire Ripetere gli argomenti per la prova orale Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Le fasi di un’indagine statistica . Approccio pp “esplorativo” p o “confermativo” . Coerenza con il problema posto Conclusioni Definizione del problema . Uso delle informazioni a priori . Scelta delle unità (indagine censuaria o campionaria) Controllo Interpretazione dei risultati . Significatività e rilevanza dei risultati Raccolta dei dati . Scelta delle variabili (princìpi di pertinenza, esaustività, non ridondanza) . Metodi univariati, bivariati, multivariati, multidimensionali, … Scelta del metodo di analisi Cristina Davino Un “caso studio” Un azienda in cerca di personale ha effettuato una selezione tra Un’azienda una serie di candidati. La tabella seguente riporta i dati dei primi 5 classificati. Nome Posizione in graduatoria Età Residenza Marchi S. 1 24 MC Loreti G. 2 Baresi C. 3 Rossi M. Bianchi S. Precedenti esperienze Punteggio SI 165 43 MC SI 155 34 Prov. MC NO 113 4 27 Altra regione NO 98 5 36 Prov. MC NO 91 1. Definire il profilo socio-anagrafico dei primi 5 classificati 2. Quale è il punteggio minimo per poter accedere alle prime 5 posizioni della classifica? 3. I primi 5 classificati hanno conseguito punteggi molto diversi? Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Un “caso studio” Nome Posizione in graduatoria Età Cristina Davino Definizione del problema La definizione del problema Residenza Marchi S. 1 24 MC Loreti G. 2 43 Baresi C. 3 34 Rossi M. 4 Bianchi S. 5 Precedenti esperienze Raccolta dei dati Conclusioni Punteggio Riguarda la definizione del problema da analizzare in tutti i suoi aspetti (scientifici, statistici, organizzativi, economici) Interpretazione dei risultati SI 165 MC SI 155 Prov. MC NO 113 27 Altra regione NO 98 36 Prov. MC NO 91 4 C 4. C’è è una relazione tra ll’età età dei candidati ed il punteggio conseguito? 5. L’aver avuto precedenti esperienze dipende dalla zona di residenza? 6 Se si sono avute precedenti esperienze, 6. esperienze si ha una maggiore probabilità di accedere alle prime posizioni? 7. In caso di una ulteriore selezione, si può prevedere quale sarà il punteggio t i conseguito it da d un candidato did t di 25 anni, i residente id t a MC e senza precedenti esperienze? Scelta del metodo di analisi Approccio esplorativo: non si hanno particolari conoscenze sul fenomeno Approccio confermativo o esplicativo: si dispone di conoscenze preliminari Scelta del metodo di rilevazione: 1. Direttamente (questionari) 2. Indirettamente (raccolta di dati statistici prodotti da altri enti) 3 Osservazioni sperimentali (esperimenti fisici, 3. fisici chimici effettuati in laboratorio) Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Definizione del problema Un “caso studio” Nome Posizione in graduatoria Età Residenza Marchi S. 1 24 MC Loreti G. 2 43 Baresi C. 3 34 Rossi M. 4 Bianchi S. 5 Precedenti esperienze L’indagine statistica Punteggio SI 165 MC SI 155 Prov. MC NO 113 27 Altra regione NO 98 36 Prov. MC NO 91 • Approccio esplorativo • Approccio confermativo “In caso di una ulteriore selezione, si può prevedere quale sarà il punteggio conseguito da un candidato di 25 anni, residente a MC e senza precedenti esperienze?” • Cristina Davino Rilevazione indiretta dei dati Raccolta dei dati Conclusioni La definizione del problema Le unità La raccolta dei dati da Le variabili Interpretazione dei risultati Scelta del metodo di analisi (o caratteri statistici) Unità statistica: unità elementare su cui vengono osservati i caratteri oggetto di studio (persone o esseri viventi, oggetti, territori, tempi, ..) Collettivo statistico o popolazione: insieme di unità statistiche omogenee su cui si effettua la rilevazione di uno o più caratteri In corrispondenza di ogni unità statistica sono osservati alcuni l i caratteri tt i o variabili Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Definizione del problema L’indagine statistica Raccolta dei dati Conclusioni Interpretazione dei risultati Scelta del metodo di analisi Il concetto di Popolazione e di Unità statistica Un insieme di eventi Posizione in graduatoria d t i Età Residenza 24 MC Loreti G. 2 Baresi C. 3 i Comuni di una Regione Rossi M. i delitti in un anno Bianchi S. L’unità u s statistica s è l’elemento o su cui u viene condotta o do l’indagine d g L’unità statistica ISTAT Nome 1 Le aziende manifatturiere Un insieme di unità amministrative Un “caso studio” Marchi S. i clienti li ti di un’azienda ’ i d Una Popolazione U P l i U insieme Un i i di soggettii può essere: Un insieme di stabilimenti Cristina Davino Precedenti esperienze i Punteggio SI 165 43 MC SI 155 34 Prov. MC NO 113 4 27 Altra regione NO 98 5 36 Prov. MC NO 91 1 Collettivo statistico o popolazione: insieme dei candidati esaminati 1. La Famiglia Un insieme di persone legate da vincoli di matrimonio, parentela,, affinità,, adozione,, tutela o da vincoli affettivi,, p coabitanti e aventi dimora abituale nello stesso comune. Una famiglia può essere costituita anche da una sola persona (Censimento 2001). L’insieme delle variabili misurate sulle diverse unità statistiche viene raccolto in una tabella unitàvariabili. 2. Singola unità statistica 3. Variabili o caratteri statistici 4. Tabella unità x variabili Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Definizione del problema Le tabelle unitàvariabili à Raccolta dei dati Conclusioni Interpretazione dei risultati L’ unità statistica Ind Genere Cristina Davino Definizione del problema Le tabelle unitàvariabili à Raccolta dei dati Conclusioni Scelta del metodo di analisi Interpretazione dei risultati Età Titolo di studio Attività Reddito (€) Comp. fam. 950 4 I diversi tipi di variabili I1 L’ unità statistica Scelta del metodo di analisi Età Titolo di studio Attività Reddito (€) Comp. fam. M 21 M. inf. Operaio 950 4 Ind Genere I diversi tipi di variabili I1 M 21 M. inf. Operaio Quantitative continue I2 M 56 Laurea Impiegato 1700 4 Quantitative continue I2 M 56 Laurea Impiegato 1700 4 Quantitative discrete I3 F 33 Laurea Docente 2100 2 Quantitative discrete I3 F 33 Laurea Docente 2100 2 Qualitative ordinabili : : : : : : : Qualitative ordinabili : : : : : : : Qualitative sconnesse In M 71 M. Sup. Pensionato 1300 3 Qualitative sconnesse In M 71 M. Sup. Pensionato 1300 3 Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Definizione del problema Le tabelle unitàvariabili à Raccolta dei dati Conclusioni Interpretazione dei risultati L’ unità statistica Ind Genere Età Titolo di studio Attività Cristina Davino Definizione del problema Le tabelle unitàvariabili à Scelta del metodo di analisi Reddito (€) Comp. fam. Raccolta dei dati Conclusioni Interpretazione dei risultati L’ unità statistica Ind Genere Età Titolo di studio Attività Scelta del metodo di analisi Reddito (€) Comp. fam. I diversi tipi di variabili I1 M 21 M. inf. Operaio 950 4 I diversi tipi di variabili I1 M 21 M. inf. Operaio 950 4 Quantitative continue I2 M 56 Laurea Impiegato 1700 4 Quantitative continue I2 M 56 Laurea Impiegato 1700 4 Quantitative discrete I3 F 33 Laurea Docente 2100 2 Quantitative discrete I3 F 33 Laurea Docente 2100 2 Qualitative ordinabili : : : : : : : Qualitative ordinabili : : : : : : : Qualitative sconnesse In M 71 M. Sup. Pensionato 1300 3 Qualitative sconnesse In M 71 M. Sup. Pensionato 1300 3 Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Definizione del problema Le tabelle unitàvariabili à Raccolta dei dati Conclusioni Interpretazione dei risultati L’ unità statistica I diversi tipi di variabili Ind Genere Scelta del metodo di analisi Età Titolo di studio Attività Reddito (€) Comp. fam. I1 M 21 M. inf. Operaio 950 4 Quantitative continue I2 M 56 Laurea Impiegato 1700 4 Quantitative discrete I3 F 33 Laurea Docente 2100 2 Qualitative ordinabili : : : : : : : Qualitative sconnesse In M 71 M. Sup. Pensionato 1300 3 Un “caso studio” Nome Posizione in graduatoria d t i Età Residenza Marchi S. 1 24 MC Loreti G. 2 Baresi C. 3 Rossi M. Bianchi S. Un carattere può assumere modalità differenti in corrispondenza delle diverse unità del collettivo. L modalità Le d lità del d l carattere tt devono d essere esaustive e non sovrapposte. Precedenti esperienze i Punteggio SI 165 43 MC SI 155 34 Prov. MC NO 113 4 27 Altra regione NO 98 5 36 Prov. MC NO 91 1 Qualitativa ordinale 1. Caratteri o variabili statistiche: Cristina Davino 2. Quantitativa continua 3. Qualitativa sconnessa - modalità 4. Quantitativa discreta Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati La presentazione dei dati: Cristina Davino elencazione delle modalità osservate, unità per unità per un solo carattere La distribuzione unitaria multipla: elencazione delle modalità osservate, unità per unità per più di un carattere Definizione del problema Raccolta dei dati Conclusioni Interpretazione dei risultati La distribuzione unitaria semplice: Cristina Davino Definizione del problema Scelta del metodo di analisi L’analisi dei dati: Raccolta dei dati Conclusioni Le distribuzioni di frequenza: Interpretazione dei risultati Scelta del metodo di analisi Caratteri qualitativi sconnessi unità età sesso n.auto 1 35 M 1 2 37 M 2 3 59 F 1 4 54 M 0 5 44 F 2 6 38 M 1 7 62 F 1 8 71 F 0 9 56 M 3 10 60 M 2 11 33 M 2 12 46 F 4 13 41 F 3 14 53 M 1 15 38 F 1 16 55 M 2 17 50 M 3 18 63 M 0 19 35 F 1 20 51 M 2 Tipo diploma Frequenze assolute (n i) Liceo classico 10 Liceo scientifico 64 ITC Altro Totale 141 12 227 Frequenza assoluta: numero di volte che una modalità viene osservata t nell collettivo ll tti Distribuzione di frequenza semplice associa alle modalità che può assumere un carattere tt le l corrispondenti frequenze assolute Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Cristina Davino Definizione del problema L’analisi dei dati: Conclusioni Le distribuzioni di frequenza: Interpretazione dei risultati Definizione del problema Raccolta dei dati Scelta del metodo di analisi L’analisi dei dati: Le distribuzioni di frequenza: Frequenze Freq. assolute Relative (n i) (f i) Tipo diploma Frequenze Freq. Freq. assolute Relative percentuali (n i) (f i) (p i) Liceo classico 10 0,044 Liceo classico 10 0,044 4,4 Liceo scientifico 64 0,282 Liceo scientifico 64 0,282 28,2 141 0,621 ITC 141 0,621 62,1 12 , 0,053 Altro 12 , 0,053 5,3 , 227 1,000 Totale 227 1,000 100,0 ITC Altro Totale Interpretazione dei risultati Caratteri qualitativi sconnessi Caratteri qualitativi sconnessi Tipo diploma Conclusioni Raccolta dei dati Scelta del metodo di analisi Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Cristina Davino Definizione del problema L’analisi dei dati: Raccolta dei dati Conclusioni Le distribuzioni di frequenza: Definizione del problema Interpretazione dei risultati Scelta del metodo di analisi Caratteri qualitativi ordinabili e Caratteri quantitativi discreti Titolo di studio Frequenze Freq. Freq. assolute Relative percentuali (ni) (fi) (pi) L’analisi dei dati: Le distribuzioni di frequenza: Interpretazione dei risultati Scelta del metodo di analisi Caratteri qualitativi ordinabili e Caratteri quantitativi discreti Frequenze Freq. Freq. Freq. ass. Freq. rel. assolute Relative percentuali cumulate cumulate (ni) (fi) (pi) (Ni) (Fi) Titolo di studio Freq. % cumulate (Pi) Licenza elementare 42 0,185 18,5 Licenza elementare 42 0,185 18,5 42 0,185 18,5 Licenza media 70 0,308 30,8 Licenza media 70 0,308 30,8 112 0,493 49,3 Diploma scuola supe 55 0,242 24,2 Diploma scuola supe 55 0,242 24,2 167 0,736 73,6 Laurea 60 0,264 26,4 Laurea 60 0,264 26,4 227 1,000 100,0 227 1,000 100,0 227 1,000 100,0 Totale Raccolta dei dati Conclusioni Totale Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Definizione del problema L’analisi dei dati: Conclusioni Raccolta dei dati Un “caso studio” Nome Le distribuzioni di frequenza: Interpretazione dei risultati Variabile Frequenze Frequenze x assolute cumulate x1 n1 n1 x2 n2 n1+n2 … … … nk n1+ ….+nk=N xk totale N Frequenze relative n1/N n2/N … nk/N 1 Frequenze % n1/N*100 n2/N*100 … nk/N*100 100 Posizione in graduatoria Scelta del metodo di analisi Caratteri qualitativi ordinabili e Caratteri quantitativi discreti Cristina Davino Età Residenza Precedenti esperienze Punteggio Marchi S. 1 24 MC SI 165 Loreti G. 2 43 MC SI 155 Baresi C. 3 34 Prov. MC NO 113 Rossi M. 4 27 Altra regione NO 98 Bianchi S. 5 36 Prov. MC NO 91 1 Definire il profilo socio-anagrafico dei primi 5 classificati 1. Residenza: MC 2 40% prov. MC 2 40% Altra regione 1 20% Precedenti esperienze: SI 2 40% NO 3 60% Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Cristina Davino Definizione del problema L’analisi dei dati: Dove e come studiare Le distribuzioni di frequenza: • Libro di testo: D. Piccolo (2004) – Statistica per le decisioni – Il Mulino. • Libro di testo: S. Borra, A. Di Ciaccio (2008) – Statistica – Metodologie per le 33 35 37 38 41 44 46 50 51 53 54 55 56 59 60 62 63 71 Totale scienze economiche e sociali – McGraw-Hill. Cap. p 1,, Cap. p 2 File “esercizi indici sintetici.pdf” E Esercizio i i n. 1 – punto t 1 Frequenze 1 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 20 Interpretazione dei risultati Scelta del metodo di analisi Caratteri quantitativi ETÀ Cap. 1, Cap. 2 (escluso paragrafi 2.4, 2.5), Raccolta dei dati Conclusioni % % cumulate 5.0 15.0 20.0 30.0 35.0 40.0 45.0 50.0 55.0 60.0 65.0 70.0 75 0 75.0 80.0 85.0 90.0 95 0 95.0 100.0 5.0 10.0 5.0 10.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 50 5.0 5.0 5.0 5.0 50 5.0 5.0 100.0 Suddivisione in classi classe 33 |- 47 47 |- 61 61 |- 74 totale % % cumulate 9 45% 45% 8 40% 85% 3 15% 100% 20 100% freq. Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Cristina Davino Definizione del problema L’analisi dei dati: Conclusioni Interpretazione dei risultati Definizione del problema Raccolta dei dati Scelta del metodo di analisi Suddivisione in classi di un carattere quantitativo Operazione p consistente nel suddividere l’insieme dei p possibili valori in intervalli tra loro disgiunti Le classi devono essere definite in modo che: • il loro numero sia abbastanza piccolo da fornire una adeguata sintesi ma abbastanza bb t grande d da d mantenere t l’i l’informazione f i con un lilivello ll sufficiente di dettaglio siano a o ttra a loro ood disgiunte sg u te • s • comprendano tutte le possibili modalità del carattere • abbiano, se possibile, la stessa ampiezza L’analisi dei dati: Suddivisione in classi 33 35 37 38 41 44 46 50 51 53 54 55 56 59 60 62 63 71 Totale Frequenze 1 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 20 % 5.0 10.0 5.0 10.0 50 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 50 5.0 5.0 5.0 100.0 % cumulate 5.0 15.0 20.0 30.0 35 0 35.0 40.0 45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0 85.0 90 0 90.0 95.0 100.0 Raccolta dei dati Conclusioni Interpretazione dei risultati Scelta del metodo di analisi Ampiezza di ciascuna classe xmax xmin 71 33 12, 66 num.classi 3 Classi di uguale ampiezza Freq. 33 |-| 46 9 % 45% % cumulata 45% 46 -|| 59 7 35% 80% 59 -| 72 4 20% 100% 20 Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Cristina Davino Definizione del problema L’analisi dei dati: 33 35 37 38 41 44 46 50 51 53 54 55 56 59 60 62 63 71 Totale Frequenze 1 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 20 % 5.0 10.0 5.0 10.0 50 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 50 5.0 5.0 5.0 100.0 % cumulate 5.0 15.0 20.0 30.0 35 0 35.0 40.0 45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0 85.0 90 0 90.0 95.0 100.0 Raccolta dei dati Conclusioni Suddivisione in classi Definizione del problema Interpretazione dei risultati Scelta del metodo di analisi • Numero di classi: 3 • Frequenza assoluta costante in ogni classe: • Frequenza percentuale costante in ogni classe: 100/3=33 3% 100/3=33,3% Classi di uguale frequenza % % cumulata 33 |- 42 7 35% 35% 42 ||- 56 7 35% 70% 6 30% 100% >=56 Raccolta dei dati Conclusioni La distribuzione in classi di uguale ampiezza Tempo per raggiungere la Facoltà (in min.) 20/3=6,7 , Freq. L’analisi dei dati: Interpretazione dei risultati Freq. Freq. Freq. ass. Frequenze assolute Relative percentuali cumulate (ni) (fi) (pi) (Ni) Freq. rel. cumulate (Fi) Scelta del metodo di analisi Freq. % cumulate (Pi) 0-|20 84 0,370 37,0 84 0,370 37,0 20-|40 81 0,357 35,7 165 0,727 72,7 40-|60 44 0,194 19,4 209 0,921 92,1 60-|80 8 0,035 3,5 217 0,956 95,6 80-|100 0 0,000 0,0 217 0,956 95,6 100-|120 4 0,018 1,8 221 0,974 97,4 120-|140 6 0,026 2,6 227 1,000 100,0 227 1,000 100,0 20 Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Cristina Davino Definizione del problema L’analisi dei dati: Conclusioni La distribuzione in classi di ampiezza diversa Tempo per raggiungere l Facoltà la F ltà (in min.) 0-|60 60-|80 80 |120 80-|120 120 -|140 Interpretazione dei risultati le densità di frequenza Raccolta dei dati • (Rapporto tra la frequenza e l’ampiezza della classe) Frequenze Freq. Freq. Freq. ass. assolute Relative p percentuali cumulate (fi) (pi) (Ni) (ni) 84 81 44 18 227 0,370 0,357 0 194 0,194 0,079 1,000 37,0 35,7 19 4 19,4 7,9 100,0 84 165 209 227 Freq. rel. cumulate (Fi) 0,370 0,727 0 921 0,921 1,000 Freq. % Densità di cumulate frequenza q (Pi) (di) 37,0 72,7 92 1 92,1 100,0 Dove e come studiare Scelta del metodo di analisi Libro di testo: D. Piccolo (2004) – Statistica per le decisioni – Il Mulino. Cap. 1 • Libro di testo: S. Borra, A. Di Ciaccio (2004) – Statistica – Metodologie per le scienze economiche e sociali – McGraw-Hill. Cap. p 1,, Cap. p 2,, 1,4 4,0 11 1,1 0,9 File “esercizi indici sintetici.pdf” E Esercizio i i n. 1 – punto t 2 Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Cristina Davino Definizione del problema L’analisi dei dati: Definizione del problema Rappresentazioni grafiche L’analisi dei dati: Raccolta dei dati Conclusioni Interpretazione dei risultati I grafici: Caratteri qualitativi e Scelta del metodo di analisi Raccolta dei dati Conclusioni Interpretazione dei risultati Scelta del metodo di analisi caratteri quantitativi discreti • Pie-chart Frequenze assolute (n i) Freq. Freq. Relative percentuali (p i) (fi) simboli convenzionali una distribuzione di frequenza o Tipo diploma di intensità, in funzione delle modalità, qualitative o Liceo classico 10 4,4 4,4 Liceo scientifico 64 28,2 28,2 141 62,1 62,1 12 5,3 227 100,0 5,3 Altro 100,0 ITC quantitative, di uno o più caratteri Altro Totale Vantaggi: • Bar chart % Illustrare mediante figure figure, linee o segmenti segmenti, aree, aree solidi solidi, Liceo classico 5,3% 70 60 4,4% 50 Liceo scientifico • confronto tra più distribuzioni 40 28,2% • mette in rilievo casi anomali 30 • potenza divulgativa 20 ITC 10 62,1% 0 Liceo classico ITC Liceo scientifico Altro Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Cristina Davino Definizione del problema L’analisi dei dati: Definizione del problema Raccolta dei dati Conclusioni I grafici: Variabili continue Istogramma Interpretazione dei risultati Scelta del metodo di analisi L’analisi dei dati: Conclusioni I grafici: Variabili continue Frequenze assolute (ni) 84 20-|40 81 40-|60 44 60 |80 60-|80 8 80-|100 0 100-|120 4 120-|140 6 227 4,0 80 Tempo per raggiungere la Facoltà (in min.) 0-|60 60 |80 60-|80 80-|120 120 -|140 Classi di ampiezza diversa 60 50 40 30 20 10 0 Scelta del metodo di analisi Densità 90 Freq. 70 0-|20 0 |20 Interpretazione dei risultati Sull’asse ordinate dobbiamo mettere la densità di frequenza Classi di ampiezza diversa Tempo per raggiungere la Facoltà (in min.) Istogramma Raccolta dei dati 20 40 60 80 100 120 140 min. Sull’asse ordinate dobbiamo mettere la densità di frequenza Frequenze Densità di assolute l f frequenza (ni) (di) 84 81 44 18 227 1,4 40 4,0 1,1 0,9 3,5 30 3,0 2,5 2,0 1,5 1,0 0,5 , 0,0 60 80 120 140 min. Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Cristina Davino Definizione del problema L’analisi dei dati: I grafici: Variabili continue Raccolta dei dati Conclusioni Istogramma Definizione del problema Interpretazione dei risultati L’analisi dei dati: I grafici: Variabili continue Scelta del metodo di analisi Raccolta dei dati Conclusioni Istogramma Interpretazione dei risultati Scelta del metodo di analisi 16 14 grafico costituito da barre non distanziate, con basi in generale 12 diverse, dove ogni barra possiede un’area proporzionale alla 10 8 corrispondente frequenza 30 6 4 2 0 area di ogni rettangolo = frequenza 20 14.0 16.0 15.0 ((densità ampiezza p della classe)) 18.0 17.0 20.0 19.0 22.0 21.0 24.0 23.0 26.0 25.0 28.0 27.0 30.0 29.0 31.0 Reddito pro capite 1997 (in milioni di lire) 10 (frequenza/ampiezza della classe) 0 14.4 16.2 18.0 19.8 21.6 23.4 25.2 27.0 28.8 30.6 Reddito pro capite 1997 (in milioni di lire) Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Cristina Davino Definizione del problema L’analisi dei dati: unità 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 età 35 37 59 54 44 38 62 71 56 60 33 46 41 53 38 55 50 63 35 51 Raccolta dei dati Conclusioni I grafici: Variabili continue e discrete Interpretazione dei risultati Scelta del metodo di analisi Rappresentazione a ramo e foglia • ramo: numeri interi iniziali dei dati • foglia: numeri interi finali dei dati Presenta i dati sia in forma tabellare che grafica Frequenza Ramo & Foglia 6 3 7 3 1 3 4 5 6 7 Ampiezza ramo: Ogni foglia: . . . . . 355788 146 0134569 023 1 10 1 caso Definizione del problema L’analisi dei dati: Conclusioni Le statistiche univariate Interpretazione dei risultati Distribuzioni di frequenza analisi delle distribuzioni di frequenza Suddivisioni in classi Istogrammi, boxplot, steam and leaf Grafici a barre Rappresentazioni grafiche Grafici a torta Istogrammi Boxplot Steam and leaf Tendenza centrale Indici sintetici Variabilità Forma Raccolta dei dati Scelta del metodo di analisi Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali Università di Macerata – Dipartimento di Scienze Politiche, della Comunicazione e delle Relaz. Internazionali a.a. 2014 2014--2015 La raccolta e la presentazione dei dati a.a. 2014 2014--2015 La raccolta e la presentazione dei dati Cristina Davino Dove e come studiare • Libro di testo: D. D Piccolo (2004) – Statistica per le decisioni – Il Mulino Mulino. Cap. 1 Cristina Davino Riepilogo La raccolta dei dati Le fasi di una ricerca quantitativa Indagini censuarie e indagini campionarie • Libro di testo: S. Borra, A. Di Ciaccio (2004) – Statistica – Metodologie per le scienze economiche e sociali – McGraw-Hill. Variabili quantitative e qualitative Cap. p 1,, Cap. p 2,, L’organizzazione dei dati: tabelle e grafici Tipi di tabelle File “esercizi indici sintetici.pdf” Esercizio n. 1 – punto 3 e punto 4 Esercizio n.3 – punto a, b, c Esercizio n. 7 – punto a e b Esercizio n. 8 – punto a Esercizio n. 10 – punto a Le distribuzioni statistiche (frequenze assolute, percentuali, cumulate) Suddivisione in classi di un carattere quantitativo (classi di ampiezza costante e di ampiezza diversa) pp ramo-foglia g Rappresentazione Rappresentazioni grafiche per caratteri qualitativi Istogramma (classi di ampiezza costante e di ampiezza diversa)