STATISTICA PER LA RICERCA SPERIMENTALE Dott.ssa Marika Vezzoli Corso di Laurea Magistrale in Scienze Infermieristiche e Ostetriche Università degli Studi di Brescia I quadrimestre - a.a. 2014 - 2015 Alcune informazioni utili Dott.ssa Marika Vezzoli Dipartimento di Medicina Molecolare e Traslazionale [email protected] 030 3717758 Viale Europa 11, 25123 Brescia RICEVIMENTO: Prima o dopo la lezione oppure su appuntamento (contattatemi via email) Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 2 CALENDARIO LEZIONI •4/12/2014 9.00-13.00 •11/12/2014 •8/01/2015 9.00-13.00 9.00-13.00 •15/01/2015 9.00-13.00 •22/01/2015 9.00-13.00 •29/01/2015 9.00-13.00 LEZIONI/ESERCITAZIONI → LAB 2 Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 3 QUALI STRUMENTI INFORMATICI UTILIZZEREMO IN QUESTO CORSO? Excel → molto diffuso nelle aziende pubbliche e private e di facile apprendimento Una volta appresa la logica di funzionamento, si ritrovano le sue funzionalità in altri spreadsheet sia commerciali sia open source MODALITÀ D’ ’ESAME: Prova al computer e possibilità di integrazione orale se non soddisfatti del risultato Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 4 APPUNTI Gli appunti delle lezioni sono fondamentali → Si consiglia pertanto la presenza in classe TESTI CONSIGLIATI Borazzo F.P., Perchinunno P. (2007). Analisi statistiche con Excel, Pearson Education, Milano Lantieri P.B., Risso D., Ravera G. (2007). Elementi di statistica medica, McGraw-Hill Companies, Milano Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 5 Dove trovare il materiale fornito dal docente Le mie slide e i file excel che utilizzeremo a lezione sono scaricabili su: Didattica in rete in corrispondenza del corso “Statistica per la ricerca sperimentale” All’indirizzo: http://marikavezzoli.weebly.com/for-mystudents-italian-version.html Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 6 Obiettivi del corso Predisporre metodi per • raccogliere e organizzare • elaborare e sintetizzare • analizzare e interpretare i dati rilevati per vari scopi di analisi Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 7 Cos’ ’è la Statistica per la Ricerca Sperimentale? È un insieme di tecniche statistiche che, con l’ausilio indispensabile del calcolatore, permettono lo studio di fenomeni reali (multidimensionali) Le analisi che svolgeremo mirano ad evidenziare legami, rassomiglianze, differenze e associazioni tra le unità e/o i caratteri rilevati Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 8 Il punto di partenza (gli “ingredienti”) sono i dati, cioè il risultato dell’osservazione delle variabili sulle unità statistiche Grande enfasi è posta anche sui controlli a posteriori della qualità delle informazioni rilevate (dati anomali, dati mancanti, …) Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 9 Terminologia POPOLAZIONE UNITÀ STATISTICA Unità statistica n° 3 1 2 SESSO: Femmina Maschio UNIFORME: Verde Rossa SPORT: Tennis Atletica Calcio ETA’ ’: 20 24 29 MODALITÀ VARIABILE Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 10 Le unità statistiche sono gli elementi (individui, oggetti, aziende,…) che interessano ai fini dell’indagine I caratteri (variabili) sono gli aspetti rilevati in corrispondenza di ciascuna unità statistica Le modalità sono le categorie o i valori che ciascun carattere presenta in corrispondenza delle unità statistiche (devono essere esaustive e mutuamente esclusive) Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 11 Tipologia di dati Microdati: dati rilevati sulle singole unità statistiche della popolazione (matrice dei dati) Macrodati: dati ricavati da opportune aggregazioni ed elaborazioni dei microdati (tabelle, grafici e indici) Metadati: documentazione sulle caratteristiche dei micro e dei macro dati (dizionario e codifica dei dati) Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 12 Organizzazione di una matrice dati Variabili SESSO UNIFORME SPORT ETA’ ’ M V A 24 M R C 29 F V T 20 M B B 27 … Modalità (codifica) Matrice dei dati n×p Unità … … Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 13 VARIABILE UNITA ’ Metadato: “Età del capofamiglia”, con modalità da 25 a 65 anni, rilevata su 3.456 famiglie residenti a Brescia nell’aprile del 2007 micro dato Macrodato: età media dei 3.456 capofamiglia Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 14 Fasi di una indagine statistica Nelle indagini statistiche esistono 4 FASI: FASE 1 → Preparazione FASE 2 → Rilevazione e sistemazione dei dati FASE 3 → Analisi dei Dati FASE 4 → Presentazione dei risultati Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 15 Fase 1 - Preparazione La preparazione è definita a sua volta da 3 SOTTO-FASI: a)Definizione del problema: approfondire tutti i risvolti del problema stilare un elenco delle informazioni necessarie b)Individuazione della popolazione: stabilire i requisiti delle unità statistiche, il periodo temporale e la zona geografica di riferimento Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 16 Le unità statistiche considerate possono essere: tutte quelle che compongono la popolazione statistica quelle che compaiono in un campione estratto da una popolazione statistica, secondo un opportuno piano di campionamento tecniche di inferenza statistica che, sotto particolari ipotesi e con la dovuta cautela, permettono di estendere i risultati ottenuti dal campione a tutta la popolazione Quando le analisi coinvolgono l’intera popolazione, è raro ottenere un database completo → impossibilità di reperire talune variabili, irreperibilità del soggetto, rifiuto dell’intervista, … Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 17 c) Selezioni delle variabili statistiche: Si distinguono 4 tipi di variabili Qualitative → le modalità si esprimono con categorie Nominali: le modalità non sono ordinabili Esempio - la “Professione” con modalità: agricoltore, artigiano, commerciante, altro Altri Esempi – sesso, colore dell’uniforme, sport praticato, ... Ordinali: le modalità sono ordinabili Esempio - il “Titolo di studio” con modalità: elementare, media, diploma, laurea Altri Esempi – giudizio ottenuto in una prova, grado di soddisfazione dei clienti, … Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 18 Quantitative → le modalità si esprimono con numeri Discrete: le modalità sono solo certi numeri Esempio - il “Numero di figli” con modalità: 1,2,..,8 Altri Esempi - Età in anni compiuti, Numero di acquisti in un mese, ... Continue: le modalità sono un intervallo di numeri Esempio - la “Altezza” con modalità: da 1 m e 60 cm a 2 m ⇒ [1,60 ; 2,00] Altri Esempi – Peso, Temperatura in °C, Pressione, … Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 19 Fase 2 – Rilevazione e sistemazione dei dati Questa fase è definita a sua volta da 2 SOTTOFASI: a)Raccolta dei dati → può avvenire: •utilizzando fonti documentarie già esistenti (costi contenuti; dati non sempre aggiornati e completi; problemi di compatibilità dei database e di confrontabilità delle informazioni se si utilizzano più fonti) •interpellando direttamente le unità statistiche della popolazione o del campione (costi elevati; possibilità di raccogliere esattamente le informazioni desiderate; frequente il ricorso a questionari) Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 20 Le fonti dei dati statistici Fonti interne Fonti esterne Pubbliche (es. ISTAT) Private Indagini statistiche ad hoc Commissionate Svolte internamente Dati statistici Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 21 Alcune fonti istituzionali di dati statistici www.istat.it Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 22 Dove recuperare dati di carattere medico: http://dati.istat.it → cliccare su Salute e sanità. Ad esempio: Possibilità di esportare in formato excel Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 23 La raccolta dei dati è una fase molto delicata perché errori nei dati possono compromettere l’intera analisi Esempi di errori nei dati: Errori alla fonte nel database utilizzato Errori legati alla conversione dei formati Errori di risposta Errori di compilazione Mancate risposte … Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche b) Trattamento dei dati → è una fase necessaria al fine di elaborare i dati con tecniche di analisi statistica Nel caso di rilevazione tramite questionario si deve: Codificare le risposte Digitalizzare i dati Controllare le risposte (individuazione risposte mancanti e controllo di coerenza) Trattamento delle risposte anomale e delle mancate risposte Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 25 Il risultato della sistemazione dei dati in una tabella in cui ogni riga corrisponde ad un soggetto ed ogni colonna corrisponde ad una variabile è la matrice dei dati È una matrice nxp (n soggetti, p variabili) che contiene tutte le informazioni, qualitative e quantitative, ottenute dall’indagine statistica sulle n unità e costituisce il dataset iniziale delle analisi statistiche Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 26 Anche quando i dati sono reperiti da fonti esterne è opportuno arrivare ad una matrice dei dati “soggetti x variabili”, anche se è difficile individuare una regola univoca (dipende dalla forma in cui il database viene fornito) Sono poi necessarie le operazioni di: Controllo della qualità dei dati (individuazione dati mancanti e controllo di coerenza) Trattamento dei dati anomali e dei dati mancanti Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 27 Controllo della qualità dei dati Individuazione dei dati inammissibili (valori o codici che un fenomeno non può presentare, ma che compaiono nei risultati della rilevazione per effetto di errori di misura, di trascrizione, di digitazione, ecc.) a livello unidimensionale (una variabile per volta), calcolando minimo e massimo a livello multidimensionale (cercando le combinazioni inammissibili delle modalità di due o più variabili tabelle doppie o multiple) Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 28 Quando si individuano dati inammissibili, bisogna cercare in quale momento della rilevazione o dell’elaborazione sono stati prodotti Se non si riesce a trovare e correggere l’errore, si possono seguire due strade: •Si ripete la raccolta del dato presso l’unità statistica originaria (difficile) •Si cancella il dato e lo considera mancante Segue la fase di trattamento dei dati anomali e dei dati mancanti Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 29 Esempio di trattamento dei dati mancanti Al fine di individuare facilmente tali missing value, codifichiamo «l’assenza di informazione» in maniera univoca ricorrendo a dei codici (o simboli) facilmente riconoscibili. Ad esempio: •Sostituiamo il vuoto con la sigla 999 (sempre che questa quantità non sia un valore che la variabile può assumere. Ad esempio, se vi fossero dei dati mancanti in corrispondenza della variabile «Reddito mensile» inserire 999 sarebbe fuorviante in quanto è plausibile avere un reddito mensile di quell’importo) •Sostituiamo il vuoto con Na •Sostituiamo il vuoto con dei simboli come (•) o solo • ID Sesso Età # Figli Fumo Camminata Nuoto Jogging Bicicletta Palestra Malattie familiari ... ... ... ... ... ... ... ... ... ... ... 018 2 59 3 9 0 0 0 1 1 Nessuna 019 2 999 999 0 1 999 0 0 0 Nessuna 020 1 38 1 1 0 1 0 0 1 999 021 2 999 999 999 0 0 0 0 999 Nessuna 022 1 999 2 0 0 0 1 0 0 Nessuna 023 1 45 2 3 1 1 0 0 1 Diabete ... ... ... ... ... ... ... ... ... ... ... Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 30 Fase 3 – Analisi dei dati L’analisi dei dati è caratterizzata a sua volta da 2 SOTTO-FASI: a)Descrizione e sintesi dei dati attraverso tabelle, rappresentazioni grafiche, indicatori di sintesi, tecniche statistiche avanzate •analisi univariate •analisi bi- e multi-variate Qualsiasi analisi statistica va accompagnata da una fase di esplorazione dei dati (tabelle, grafici, indici di sintesi) Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 31 L’analisi grafica preliminare può essere estremamente importante perché ha una potenzialità comunicativa semplice ed immediata Attenzione: un buon grafico mette in luce caratteristiche importanti dei fenomeni studiati, ma grafici con errori grossolani o di superficialità possono indurre in errori molto gravi b)Interpretazione dei risultati è una fase molto delicata, specialmente se sono state utilizzate tecniche avanzate di analisi dei dati Solo con la conoscenza approfondita del fenomeno e delle tecniche utilizzate si può giungere a interpretare correttamente i risultati Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 32 Fase 4 – Presentazione dei risultati Alla fine dell’analisi è opportuno comunicare i risultati ottenuti. Gli strumenti sono: a)Report → prospetti contenenti i risultati dell’analisi e la spiegazione riguardo le procedure seguite e le scelte effettuate in tutte le fasi dell’indagine È fondamentale conoscere obiettivi e destinatari, al fine di individuare la strategia migliore per stendere il report (che può essere scientifico, tecnico, divulgativo,…) Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 33 Il report deve trasmettere le informazioni in modo chiaro, ordinato e comprensibile Deve essere diffuso con un adeguato livello di frequenza e di tempestività Deve essere flessibile, per poter essere modificato e adattato alle esigenze aziendali Deve essere fruibile, ossia facilmente accessibile da parte del destinatario In sintesi, il reporting deve trasformare i dati in informazioni, perché un dato che non informa non supporta il processo decisionale generando anche problemi seri Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 34 b) Presentazioni PowerPoint → devono comunicare i contenuti scientifici e tecnici in modo chiaro, efficace e convincente Esiste una vera e propria letteratura su come effettuare presentazioni di successo Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 35 Excel In questo corso impareremo quindi ad analizzare dei dataset con un certo numero di osservazioni utilizzando Excel Focalizzeremo la nostra attenzione sulle statistiche descrittive, sulle rappresentazioni grafiche, sull’analisi bivariata e faremo alcuni cenni di statistica inferenziale Da Office Excel 2007 in poi l’interfaccia utente Office Fluent sostituisce i menu, le barre degli strumenti e la maggior parte dei riquadri attività delle versioni precedenti di Excel con un unico meccanismo semplice e facilmente individuabile. Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 36 Excel (continua) L'utente migliora quindi la produttività, trova più facilmente le funzionalità corrette per le diverse attività, scopre nuove funzionalità e migliora l'efficienza dello strumento. Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 37 Primo file Excel Nel primo file sul quale lavoreremo (01_Introduzione_statistiche_descrittive), trattiamo 150 donne che hanno appena partorito. Sulle nostre unità statistiche sono state rilevate le seguenti variabili: Età mamma Peso nascituro (in gr) Sesso nascituro Lunghezza nascituro (in cm) Primipara Svolgeremo quindi le prime analisi di statistica descrittiva Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche 38