FRANCESCA IACOPONI [email protected] Corso di Informatica Modulo statistica Giugno 2013 Programma del corso Indagini statistiche Elementi di statistica Distribuzioni di probabilità Test e verifica d’ipotesi 2 Fondamentale: FARE DOMANDE!!! 3 …e fidarsi… …senza avere basi solide! 4 Statistica status rerum definita e proposta dal filosofo tedesco G. Achenwall nel XVIII secolo “scienza deputata a raccogliere dati utili per meglio governare” Oggi tale scienza è ampiamente impiegata per procedere ad una raccolta ordinata dei dati al fine di: • scoprire eventuali leggi che regolano i dati stessi solo in apparenza disordinati • operare il confronto fra dati ottenuti in condizioni differenti Entra nella ricerca in due differenti momenti: • Piano sperimentale • Analisi dei dati raccolti 5 5 INDAGINE STATISTICA Principali fasi di un’indagine statistica • finalità dell’indagine • definizione della popolazione di studio e/o di riferimento • pianificazione dei metodi di rilevazione dei dati • classificazione e organizzazione dei dati rilevati • analisi ed elaborazione dei dati • interpretazione dei risultati affidabilità e validità dei dati per limitare i possibili errori sistematici 6 DATI Sono le rappresentazioni numeriche di un fenomeno Fonti dei dati: Primarie: dati raccolti direttamente, spesso rilevati attraverso indagini campionarie Secondarie: dati raccolti da altri (registrazioni di atti amministrativi, anagrafe, etc.) 7 Cosa è una fonte statistica? • L’ente che produce ed è responsabile del dato; • La rilevazione/elaborazione da cui proviene il dato (raccolta diretta per l’indagine ad hoc oppure elaborazione di dati contenuti in archivi amministrativi); • La pubblicazione su carta, cd-rom, sito web su cui è rilasciato il dato (ad esempio, l’Annuario statistico italiano o il database contenente i dati) 8 Fonti statistiche PRIVATE NAZIONALI UFFICIALI PUBBLICHE NON UFFICIALI INTERNAZIONALI 9 Fonti statistiche pubbliche Rilevazioni dell’Istat, indagini 10 Esempi di dati 1) 2) 3) 4) 5) Numero di confezioni ordinate Domanda annuale di ricambi Incassi e pagamenti Numero di camion scaricati Personale impiegato nell’imballaggio merci 11 Rilevazione Statistiche Tecniche per rilevare le unità statistiche TOTALI (censimenti) PARZIALI (campionarie) • Perché Parziali e non Totali? • Al fine di evitare costi e tempi superiori al necessario sarà utile fin dall’inizio stabilire: » Modalità di rilevazione » Tecniche di rilevazione Modalità di Rilevazione Intervistatore Faccia a faccia Libera Telefoniche (CATI) Con Scheda Dirette Questionario postale Autocompilate Libretto Rilevazioni Esame dei documenti Indirette Metodo del sopralluogo Rilevazioni dirette (Intervistatore) Faccia a faccia: da più garanzie per la qualità dei dati, più costosa, bassa percentuale di rifiuti • Libera: focalizzata a domande precise ottengo risposte precise • Con Scheda: risposta a quesiti lettifacile tabulazione e interpretazione, nessuna codifica Intervista Telefonica . La tecnica CATI (Computer Assisted Telephone Interview) Scheda breve, scelta non casuale (non tutti hanno il telefono). Software raccolta dati. (generatore casuale di numeri telefonici con riserve di nomi e questionario inserito da compilare all’utente). • Vantaggi: » » » » Registra matricola, nome, numero, data, durata rilevazione: Domande ruotate (elimina effetto d’ordine), coerenza risposte, limita gli errori; Suggerimenti per la tabulazione, e l’analisi, confronto con indagini passate; Monitaraggio completo nelle varie fasi; • Svantaggi: » Elevati costi economici (intervistatore, software) e di tempo; » Scarsa flessibilità nella correzione degli errori; » Errore di copertura; Rilevazioni dirette (autocompilate) Questionario postale: • Pregi: • bassi costi e risposte in libertà • Difetti: • • • • Mancati ritorni Indisponibilità degli indirizzi dell’Universo Risposte non pertinenti (non capisce le domande) Risposte fornite da altro soggetto Rilevazioni con libretto: conoscere giorno per giorno i consumi e le spese effettuate dalle famiglie a cui viene consegnato il libretto. Rilevazioni indirette Esame dei documenti: Si esaminano i documenti personali degli individui presso l’Istituto o l’Ente che di cui fanno parte (handicappati) Metodo del Sopralluogo: Osservatori sul luogo di indagine per rilevare il comportamento degli individui (con o senza partecipazione) Il Questionario (stesura) • Leggere la letteratura esistente facendosi consigliare da un esperto su come formulare le domande in grado di raggiungere gli obiettivi dell’indagine • Consigli: • Evitare domande viziate (Es. Indagine religiosa. Sei Stato a messa domenica? Meglio: Cosa hai fatto domenica?) • Evitare domande doppie (Es. Favorevole all’aborto e al divorzio?) • Domande formulate in modo semplice e non ambigue (alcuni termini possono voler significare molte cose) • Numero delle domande (adeguato allo scopo, al luogo, al tipo di persone intervistate, all’argomento trattato) • Ordine logico delle domande (tenere lontane domande con nessi causali) La raccolta dati: il database 18 Programmi di gestione Includono applicazioni utilizzate per aumentare l'efficienza e la produttività delle società di logistica nonché per operare risparmi sui costi. Alcuni degli applicativi più utilizzati nel settore trasporti sono: •il sistema di gestione della flotta (FMS) •il sistema di gestione dei trasporti (TMS) •il sistema di gestione dei rimorchi •il sistema di gestione del magazzino o Warehouse Management System (WMS) 19 20 21 22 Il dato rilevato sulla variabile Quando determiniamo la durata, la motivazione, la frequenza di una unità statistica (confezione, articolo…): il risultato/dato è riferito come un valore della rispettiva variabile/carattere Variabile: qualsiasi caratteristica si presenti con modalità diverse, da soggetto a soggetto o, nello stesso soggetto, da un momento all’altro 23 Variabili qualitative e quantitative Alcune caratteristiche assumono valori espressi in forma verbale -tipo di anomalia -colore cromatura variabili qualitative Altre sono espresse in modo numerico. -10 giorni -numero confezioni variabili quantitative 24 24 Variabili qualitative e quantitative VARIABILE QUANTITATIVA Discreta: i dati sono espressi da misure intere, non frazionabili Continua: i dati sono espressi da misure frazionabili VARIABILE QUALITATIVA Nominale: le modalità non sono divise in categorie Ordinale: prevede un ordine predeterminato, anche se non è prevista un’uguale distanza fra le modalità 25 VARIABILI: QUALITATIVE Carattere Modalità nominali Colore prodotto Nero Bianco ordinali Grado di integrità Integro Pacco danneggiato Pacco e interno danneggiato Danneggiato con anomalie Da sostituire QUANTITATIVE Carattere Modalità discrete Numero di confezioni 1,2,3,….. continue Dimensioni confezione h. 1.36 m l. 82.5 cm 26 Esercizio • Quantità del prodotto • Restituzione al fornitore si/no • Ore di viaggio • Numero anomalie riscontrate • Tipo di anomalie • Tempi di consegna • Numero ordini in un mese • Tipi di articolo per categoria 27 STATISTICA DESCRITTIVA La statistica descrittiva è composta da un insieme di tecniche finalizzate all’organizzazione ed alla sintesi dei dati 29 La distribuzione di frequenza All’aumentare del numero di osservazioni N rilevate su un carattere X di un fenomeno, è opportuno, organizzare le informazioni (x1, x2, …, xN) mediante la tabulazione dei dati. Nelle tabelle vengono elencate •le modalità del carattere (i valori che può assumere) •le frequenze (F) con cui ogni modalità si presenta le informazioni contenute nelle tabelle costituiscono la cosiddetta distribuzione di frequenza del carattere esaminato Frequenza assoluta: numero di volte che un dato carattere si presenta con un certo valore. 30 Frequenza assoluta, relativa e percentuale Frequenza relativa (f): rapporto fra le frequenze assolute (F) ed il loro totale (N). Se moltiplicata per 100, restituisce la Frequenza percentuale (%) Nazionalità F f Italiana 1286 0.39 Europea 1568 0.47 Extra-Europea 469 0.14 Totale 3323 1.00 N F i 1 i (Fonte: Risorsa Turismo, 2008) N N f i 1 i 1 N.B. La frequenza relativa è utile se voglio confrontare due fenomeni di differente numerosità 31 Raggruppamento dei dati in classi Stabilito il valore maggiore e minore in una distribuzione, per ordinare i dati in classi: • Le classi dovrebbero essere non meno di 5 e non più di 20; • Per stabilire indicativamente il numero di classi possiamo ricorrere alla regola di Sturges: K (numero di classi indicate) : 1 + 3,3 log (N) Es. 100.000 osservazioni: K = 1+3,3 log(100.000) = 1+(3,3x5) = 18 32 Raggruppamento dei dati in classi Nelle divisioni in classi vanno definiti il limite inferiore e quello superiore, per evitare che una stessa unità possa far parte contemporaneamente di due classi. Intervallo chiuso a sinistra, cioè comprendente l’estremo inferiore Intervallo chiuso a destra, cioè comprendente l’estremo superiore Intervallo chiuso, cioè comprendente ambedue gli estremi della classe le classi possono essere di ampiezza costante, oppure di ampiezza diversa (l’ampiezza è calcolata facendo la differenza degli estremi) 33 Ampiezza della classe e densità • Ampiezza di classe: estremo superiore - estremo inferiore della classe • Densità: Frequenza / ampiezza (grado di addensamento dei dati) 34 FREQUENZA CUMULATA Si definisce Frequenza cumulata la somma progressiva delle frequenze associate a ciascuna intensità del carattere Frequenza cumulata -------------15 15+2=17 17+3=20 35 Esercizio Dati raccolti su 30 camionisti che hanno soggiornato nell’albergo portuale nel mese di luglio 2007 Matrice dei dati -Che tipo di variabili sono? -Tabelle di frequenza in base alle variabili rilevate 36 Rappresentazioni grafiche dei dati La rappresentazione grafica è utile distribuzioni di elevata numerosità in particolare per Alcuni tipi di grafico: Grafico a torta Grafico ad aghi Grafico a barre Istogramma Poligono di frequenza Grafico a coordinate polari Scatter plot Box plot 37 Grafico a torta Un magazziniere valuta 33.286 imballaggi effettuati da una particolare ditta Grado di soddisfazione Non soddisfatto F % 736 2,2 Abbastanza soddisfatto 17.987 54,0 Soddisfatto 14.563 43,8 N 33.286 100,0 Abbastanza soddisfatto Per calcolare l’ampiezza dell’angolo: Soddisfatto Non soddisfatto 360°: 100 = X°: 2.2 X° = (360 • 2.2) / 100 = 7.92 Cosa posso concludere? 38 Grafico a barre Nazionalità Carichi provenienti da: F Italiana 1286 Europea 1568 Extra-Europea 469 Totale 3323 39 Istogramma (1) Km percorsi giornalmente per lavoro F (1-20] 15 (20-40] 2 (40-60] 3 (60-80] 6 40 Istogramma (2) •Basi coincidenti con ampiezza delle classi •Altezze uguali alla densità di frequenza •Superfici uguali alle frequenze di classe 41 Poligono delle frequenze 42 Coordinate polari X (mesi) F Gennaio 1.976 Febbraio 1.945 Marzo 2.178 Aprile 2.008 Maggio 2.154 Giugno 2.068 Luglio 2.025 Agosto 1.382 Settembre 2.014 Ottobre 2.125 Novembre 1.935 Dicembre 1.873 N 23.674 Numero di richieste rimborsi per merce danneggiata, anno 2000 43 Scatter plot (diagramma a dispersione) Numero di viaggi all’anno in relazione all’età 44 Cartogramma ES: Traffico navale per città portuali non turistiche Turisti in Italia per regione Turisti italiani e stranieri in Italia per regione 45 Piramide di popolazione Classi di età Frequenza percentuale 46 Per riassumere… Tipo di dati variabile Distribuzioni di Qualitativa frequenza Quantitativa discreta grafico Quantitativa continua Barre Torta Ad Aghi Torta Istogramma Poligono di frequenza Box plot Scatter plot 47