STATISTICA PER
LA RICERCA
SPERIMENTALE
Dott.ssa Marika Vezzoli
Corso di Laurea Magistrale in Scienze
Infermieristiche e Ostetriche
Università degli Studi di Brescia
I quadrimestre - a.a. 2014 - 2015
Alcune informazioni utili
Dott.ssa Marika Vezzoli
Dipartimento di Medicina Molecolare e Traslazionale
[email protected]
030 3717758
Viale Europa 11, 25123 Brescia
RICEVIMENTO: Prima o dopo la lezione oppure su
appuntamento (contattatemi via email)
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
2
CALENDARIO LEZIONI
•4/12/2014
9.00-13.00
•11/12/2014
•8/01/2015
9.00-13.00
9.00-13.00
•15/01/2015
9.00-13.00
•22/01/2015
9.00-13.00
•29/01/2015
9.00-13.00
LEZIONI/ESERCITAZIONI → LAB 2
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
3
QUALI STRUMENTI INFORMATICI
UTILIZZEREMO IN QUESTO CORSO?
Excel
→ molto diffuso nelle aziende pubbliche e private e
di facile apprendimento
Una volta appresa la logica di funzionamento, si
ritrovano le sue funzionalità in altri spreadsheet sia
commerciali sia open source
MODALITÀ D’
’ESAME:
Prova al computer e possibilità di integrazione orale
se non soddisfatti del risultato
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
4
APPUNTI
Gli appunti delle lezioni sono fondamentali →
Si consiglia pertanto la presenza in classe
TESTI CONSIGLIATI
Borazzo F.P., Perchinunno P. (2007). Analisi
statistiche con Excel, Pearson Education, Milano
Lantieri P.B., Risso D., Ravera G. (2007). Elementi
di statistica medica, McGraw-Hill Companies,
Milano
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
5
Dove trovare il materiale
fornito dal docente
Le mie slide e i file excel che utilizzeremo a
lezione sono scaricabili su:
Didattica in rete in corrispondenza del corso
“Statistica per la ricerca sperimentale”
All’indirizzo:
http://marikavezzoli.weebly.com/for-mystudents-italian-version.html
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
6
Obiettivi del corso
Predisporre metodi per
• raccogliere e organizzare
• elaborare e sintetizzare
• analizzare e interpretare
i dati rilevati per vari scopi di analisi
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
7
Cos’
’è la Statistica per la
Ricerca Sperimentale?
È un insieme di tecniche statistiche
che, con l’ausilio indispensabile del
calcolatore, permettono lo studio di
fenomeni reali (multidimensionali)
Le analisi che svolgeremo mirano ad
evidenziare legami, rassomiglianze,
differenze e associazioni tra le unità
e/o i caratteri rilevati
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
8
Il punto di partenza (gli
“ingredienti”) sono i dati, cioè il
risultato dell’osservazione delle
variabili sulle unità statistiche
Grande enfasi è posta anche sui
controlli a posteriori della qualità
delle informazioni rilevate (dati
anomali, dati mancanti, …)
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
9
Terminologia
POPOLAZIONE
UNITÀ
STATISTICA
Unità statistica n° 3
1
2
SESSO: Femmina
Maschio
UNIFORME: Verde
Rossa
SPORT: Tennis
Atletica
Calcio
ETA’
’: 20
24
29
MODALITÀ
VARIABILE
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
10
Le unità statistiche sono gli elementi
(individui, oggetti, aziende,…) che
interessano ai fini dell’indagine
I caratteri (variabili) sono gli aspetti
rilevati in corrispondenza di ciascuna
unità statistica
Le modalità sono le categorie o i valori
che ciascun carattere presenta in
corrispondenza delle unità statistiche
(devono essere esaustive e mutuamente
esclusive)
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
11
Tipologia di dati
Microdati: dati rilevati sulle singole
unità statistiche della popolazione
(matrice dei dati)
Macrodati: dati ricavati da
opportune aggregazioni ed
elaborazioni dei microdati (tabelle,
grafici e indici)
Metadati: documentazione sulle
caratteristiche dei micro e dei
macro dati (dizionario e codifica
dei dati)
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
12
Organizzazione di una
matrice dati
Variabili
SESSO
UNIFORME
SPORT
ETA’
’
M
V
A
24
M
R
C
29
F
V
T
20
M
B
B
27
…
Modalità
(codifica)
Matrice
dei
dati
n×p
Unità
…
…
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
13
VARIABILE
UNITA
’
Metadato:
“Età del capofamiglia”, con modalità
da 25 a 65 anni, rilevata su 3.456
famiglie
residenti
a
Brescia
nell’aprile del 2007
micro
dato
Macrodato: età media dei 3.456 capofamiglia
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
14
Fasi di una indagine
statistica
Nelle indagini statistiche esistono 4 FASI:
FASE 1 → Preparazione
FASE 2 → Rilevazione e sistemazione dei dati
FASE 3 → Analisi dei Dati
FASE 4 → Presentazione dei risultati
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
15
Fase 1 - Preparazione
La preparazione è definita a sua volta da 3
SOTTO-FASI:
a)Definizione
del problema:
approfondire tutti i risvolti del problema
stilare un elenco delle informazioni necessarie
b)Individuazione
della popolazione:
stabilire i requisiti delle unità statistiche, il periodo
temporale e la zona geografica di riferimento
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
16
Le unità statistiche considerate possono
essere:
tutte quelle che compongono la popolazione
statistica
quelle che compaiono in un campione
estratto da una popolazione statistica,
secondo un opportuno piano di
campionamento
tecniche di inferenza
statistica che, sotto particolari ipotesi e
con la dovuta cautela, permettono di
estendere i risultati ottenuti dal campione a
tutta la popolazione
Quando le analisi coinvolgono l’intera
popolazione, è raro ottenere un database
completo → impossibilità di reperire talune
variabili, irreperibilità del soggetto, rifiuto
dell’intervista, …
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
17
c)
Selezioni delle variabili statistiche:
Si distinguono 4 tipi di variabili
Qualitative → le modalità si esprimono con
categorie
Nominali: le modalità non sono ordinabili
Esempio - la “Professione” con modalità: agricoltore,
artigiano, commerciante, altro
Altri Esempi – sesso, colore dell’uniforme, sport
praticato, ...
Ordinali: le modalità sono ordinabili
Esempio - il “Titolo di studio” con modalità:
elementare, media, diploma, laurea
Altri Esempi – giudizio ottenuto in una prova, grado di
soddisfazione dei clienti, …
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
18
Quantitative → le modalità si
esprimono con numeri
Discrete: le modalità sono solo certi
numeri
Esempio - il “Numero di figli” con modalità: 1,2,..,8
Altri Esempi - Età in anni compiuti, Numero di
acquisti in un mese, ...
Continue: le modalità sono un intervallo
di numeri
Esempio - la “Altezza” con modalità: da 1 m e 60 cm
a 2 m ⇒ [1,60 ; 2,00]
Altri Esempi – Peso, Temperatura in °C, Pressione,
…
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
19
Fase 2 – Rilevazione e
sistemazione dei dati
Questa fase è definita a sua volta da 2 SOTTOFASI:
a)Raccolta dei dati
→ può avvenire:
•utilizzando fonti documentarie già esistenti
(costi contenuti; dati non sempre aggiornati e
completi; problemi di compatibilità dei database e
di confrontabilità delle informazioni se si utilizzano
più fonti)
•interpellando direttamente le unità statistiche
della popolazione o del campione (costi elevati;
possibilità di raccogliere esattamente le
informazioni desiderate; frequente il ricorso a
questionari)
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
20
Le fonti dei dati statistici
Fonti interne
Fonti esterne
Pubbliche
(es. ISTAT)
Private
Indagini
statistiche
ad hoc
Commissionate
Svolte
internamente
Dati statistici
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
21
Alcune fonti istituzionali di dati statistici
www.istat.it
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
22
Dove recuperare dati di carattere medico:
http://dati.istat.it
→ cliccare su Salute e sanità. Ad esempio:
Possibilità di esportare
in formato excel
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
23
La raccolta dei dati è una fase molto
delicata perché errori nei dati possono
compromettere l’intera analisi
Esempi di errori nei dati:
Errori alla fonte nel database utilizzato
Errori legati alla conversione dei
formati
Errori di risposta
Errori di compilazione
Mancate risposte
…
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
b) Trattamento dei dati → è una fase
necessaria al fine di elaborare i dati con
tecniche di analisi statistica
Nel caso di rilevazione tramite questionario
si deve:
Codificare le risposte
Digitalizzare i dati
Controllare le risposte (individuazione
risposte mancanti e controllo di coerenza)
Trattamento delle risposte anomale e delle
mancate risposte
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
25
Il risultato della sistemazione dei dati
in una tabella in cui ogni riga
corrisponde ad un soggetto ed ogni
colonna corrisponde ad una variabile è
la matrice dei dati
È una matrice nxp (n soggetti, p
variabili) che contiene tutte le
informazioni, qualitative e
quantitative, ottenute dall’indagine
statistica sulle n unità e costituisce il
dataset iniziale delle analisi
statistiche
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
26
Anche quando i dati sono reperiti da
fonti esterne è opportuno arrivare ad
una matrice dei dati “soggetti x
variabili”, anche se è difficile
individuare una regola univoca (dipende
dalla forma in cui il database viene
fornito)
Sono poi necessarie le operazioni di:
Controllo della qualità dei dati
(individuazione dati mancanti e
controllo di coerenza)
Trattamento dei dati anomali e dei
dati mancanti
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
27
Controllo della qualità dei dati
Individuazione dei dati inammissibili
(valori o codici che un fenomeno non può
presentare, ma che compaiono nei
risultati della rilevazione per effetto di
errori di misura, di trascrizione, di
digitazione, ecc.)
a livello unidimensionale (una variabile
per volta), calcolando minimo e massimo
a livello multidimensionale (cercando
le combinazioni inammissibili delle
modalità di due o più variabili
tabelle
doppie o multiple)
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
28
Quando si individuano dati
inammissibili, bisogna cercare in quale
momento della rilevazione o
dell’elaborazione sono stati prodotti
Se non si riesce a trovare e correggere
l’errore, si possono seguire due strade:
•Si ripete la raccolta del dato presso
l’unità statistica originaria (difficile)
•Si cancella il dato e lo considera
mancante
Segue la fase di trattamento dei dati
anomali e dei dati mancanti
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
29
Esempio di trattamento dei dati mancanti
Al fine di individuare facilmente tali missing value, codifichiamo «l’assenza
di informazione» in maniera univoca ricorrendo a dei codici (o simboli)
facilmente riconoscibili. Ad esempio:
•Sostituiamo il vuoto con la sigla 999 (sempre che questa quantità non sia
un valore che la variabile può assumere. Ad esempio, se vi fossero dei dati
mancanti in corrispondenza della variabile «Reddito mensile» inserire 999
sarebbe fuorviante in quanto è plausibile avere un reddito mensile di
quell’importo)
•Sostituiamo il vuoto con Na
•Sostituiamo il vuoto con dei simboli come (•) o solo •
ID
Sesso
Età
# Figli
Fumo
Camminata
Nuoto
Jogging
Bicicletta
Palestra
Malattie familiari
...
...
...
...
...
...
...
...
...
...
...
018
2
59
3
9
0
0
0
1
1
Nessuna
019
2
999
999
0
1
999
0
0
0
Nessuna
020
1
38
1
1
0
1
0
0
1
999
021
2
999
999
999
0
0
0
0
999
Nessuna
022
1
999
2
0
0
0
1
0
0
Nessuna
023
1
45
2
3
1
1
0
0
1
Diabete
...
...
...
...
...
...
...
...
...
...
...
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
30
Fase 3 – Analisi dei dati
L’analisi dei dati è caratterizzata a sua
volta da 2 SOTTO-FASI:
a)Descrizione e sintesi dei dati attraverso
tabelle, rappresentazioni grafiche, indicatori di
sintesi, tecniche statistiche avanzate
•analisi univariate
•analisi bi- e multi-variate
Qualsiasi analisi statistica va accompagnata da una
fase di esplorazione dei dati (tabelle, grafici, indici
di sintesi)
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
31
L’analisi grafica preliminare può essere
estremamente importante perché ha una
potenzialità comunicativa semplice ed
immediata
Attenzione: un buon grafico mette in luce
caratteristiche importanti dei fenomeni
studiati, ma grafici con errori grossolani o
di superficialità possono indurre in errori
molto gravi
b)Interpretazione dei risultati è una
fase molto delicata, specialmente se sono
state utilizzate tecniche avanzate di analisi
dei dati
Solo con la conoscenza approfondita del
fenomeno e delle tecniche utilizzate si può
giungere a interpretare correttamente i
risultati
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
32
Fase 4 – Presentazione
dei risultati
Alla fine dell’analisi è opportuno comunicare i
risultati ottenuti. Gli strumenti sono:
a)Report → prospetti contenenti i risultati
dell’analisi e la spiegazione riguardo le
procedure seguite e le scelte effettuate in
tutte le fasi dell’indagine
È fondamentale conoscere obiettivi e
destinatari, al fine di individuare la strategia
migliore per stendere il report (che può essere
scientifico, tecnico, divulgativo,…)
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
33
Il report deve trasmettere le
informazioni in modo chiaro, ordinato
e comprensibile
Deve essere diffuso con un adeguato
livello di frequenza e di tempestività
Deve essere flessibile, per poter
essere modificato e adattato alle
esigenze aziendali
Deve essere fruibile, ossia facilmente
accessibile da parte del destinatario
In sintesi, il reporting deve
trasformare i dati in informazioni,
perché un dato che non informa non
supporta il processo decisionale
generando anche problemi seri
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
34
b)
Presentazioni PowerPoint → devono
comunicare i contenuti scientifici e
tecnici in modo chiaro, efficace e
convincente
Esiste una vera e propria letteratura su
come effettuare presentazioni di
successo
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
35
Excel
In questo corso impareremo quindi ad analizzare
dei dataset con un certo numero di osservazioni
utilizzando Excel
Focalizzeremo la nostra attenzione sulle
statistiche descrittive, sulle rappresentazioni
grafiche, sull’analisi bivariata e faremo alcuni
cenni di statistica inferenziale
Da Office Excel 2007 in poi l’interfaccia utente
Office Fluent sostituisce i menu, le barre degli
strumenti e la maggior parte dei riquadri
attività delle versioni precedenti di Excel con un
unico meccanismo semplice e facilmente
individuabile.
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
36
Excel (continua)
L'utente migliora quindi la produttività, trova
più facilmente le funzionalità corrette per le
diverse attività, scopre nuove funzionalità e
migliora l'efficienza dello strumento.
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
37
Primo file Excel
Nel
primo
file
sul
quale
lavoreremo
(01_Introduzione_statistiche_descrittive),
trattiamo 150 donne che hanno appena
partorito. Sulle nostre unità statistiche sono
state rilevate le seguenti variabili:
Età mamma
Peso nascituro (in gr)
Sesso nascituro
Lunghezza nascituro (in cm)
Primipara
Svolgeremo quindi le prime analisi di
statistica descrittiva
Marika Vezzoli – Corso di Laurea Magistrale in Scienze Infermieristiche ed Ostetriche
38