Anno Accademico 2013/2014
Corso di Laurea Triennale in Scienze Motorie
C.I. Analisi dei dati motori e sportivi
Modulo: Metodi epidemiologici
(per Classe 33: Raccolta ed organizzazione dei dati)
Prof. Daniela Anastasi
Facoltà di Scienze Motorie
Università di Cassino
La raccolta dei dati con un questionario
Formato finale del questionario
•
•
•
•
•
•
•
•
usare carta resistente
usare un formato libro
assegnare un numero codice ad ogni questionario
assegnare ad ogni domanda un numero
progressivo
lasciare spazio sufficiente tra i quesiti
non spezzare le domande tra due pagine
usare caratteri di stampa diversi per le istruzioni,
le domande e le relative risposte
evidenziare con vari artifici le parti più importanti
delle domande
Il formato grafico
• Nell’elaborazione di un questionario, vanno
considerate le esigenze di due persone:
La
persona che compilerà il questionario
Semplicità, chiarezza
La persona che elaborerà l’informazione raccolta
• La persona che compilerà il questionario ha
la precedenza
• Le stesse regole di semplicità e chiarezza
valgono per:
Interviste
strutturate
Moduli per l’estrazione dei dati
Il formato grafico
•
•
•
•
Lasciare spazio sufficiente tra i quesiti
Non spezzare le domande tra due pagine
Le domande vanno scritte in grassetto
Le categorie di risposte vanno scritte con
carattere normale
• Le istruzioni vanno scritte in corsivo
• Per le domande chiuse la risposta viene
fornita ponendo un segno sul codice
corrispondente
• Per le domande aperte le risposte vanno
inserite nello spazio previsto
Un esempio di questionario
Definizione delle risposte possibili
• Le risposte devono essere esaustive e
mutuamente esclusive
• In alcuni casi la domanda non può essere
rivolta
• In altri, la domanda è posta, ma la persona
non risponde
• In altri ancora, la persona risponde “Non
so”
Variabili categoriche
• Evitare l’inserimento di testo
• È conveniente utilizzare dei codici numerici
per le variabili categoriche
Questi
codici
vanno
dell’inserimento dei dati
definiti
prima
Variabili categoriche: risposte
Variabili categoriche: domande
Variabili categoriche: risposte
Variabili numeriche
• Evitare
di
raccogliere
informazioni
aggregate per le variabili numeriche
Per
chi risponde è altrettanto agevole indicare
l’età piuttosto che scegliere tra una serie di
classi d’età pre-definite
È ancora meglio raccogliere anno e mese di
nascita, così saremo in grado di calcolare
agevolmente l’età del rispondente a qualsiasi
data
Variabili numeriche: risposte
Fattori che influenzano la
formulazione di un questionario
1. Chi deve compilare il questionario
* Autocompilazione
* Intervistatori
2. Quanti argomenti “delicati” devono essere affrontati
* Argomenti complessi
* Argomenti imbarazzanti
* Argomenti che possono offendere
3. Quanti soggetti devono essere intervistati
4. Quante variabili devono essere indagate
* Lunghezza del questionario
1. Chi deve compilare il questionario
Autocompilazione
Il soggetto al quale viene
questionario potrà:
• Segnare caselle
• Cerchiare risposte
• Scrivere numeri o testo
consegnato
Intervistatori
Agli intervistatori viene in genere richiesto di:
• Cerchiare risposte
• Scrivere numeri in apposite caselle
il
2. Il contenuto
Il
•
•
•
soggetto che compila il questionario potrà:
Seguire istruzioni semplici
Saltare gli argomenti “difficili”
Non completare il questionario
Ma gli intervistatori dovrebbero sempre:
• Seguire le istruzioni semplici
• Fare le domande “difficili”
• Compilare, se possibile, tutte le risposte
3. La numerosità del campione sul
quale si esegue l’indagine
A. Su piccoli campioni (studi pilota, studi ad hoc) si
può prendere in considerazione anche la raccolta
di dati che presentano problemi di codifica:
*
*
B.
Risposte testuali aperte
Risposte multiple (es. “tutti i mestieri che hai fatto nella
vita”)
Su grandi campioni (studi di popolazione,
questionari spediti per via postale) è necessario:
*
*
*
Far scegliere tra più opzioni chiuse precodificate
Inserire un codice “altro” per le eccezioni
Ridurre al massimo i “salti condizionati”
(es. se Maschio vai alla domanda X, se Femmina vai alla
domanda Y)
*
Ridurre al massimo il testo
Regole da seguire nel formulare domande
individuali
• Utilizzare differenti caratteri per differenti sezioni di diverse
domande
es. maiuscolo per la domanda, neretto per le risposte alternative,
corsivo per le istruzioni
• Aggiungere specifiche istruzioni e suggerimenti (per gli
intervistatori) a ciascuna domanda
• Usare il formato verticale per la risposta
• Pre-codificare tutte le domande a risposta chiusa
• Utilizzare sempre lo stesso numero di codice per particolari
categorie di risposte
• Individuare le risposte alle domande a risposta chiusa
circondando il numero di codice o la risposta alternativa
• Riservare spazi o caselle per le domande a risposta aperta
• Considerare la fruibilità dei formati per l’input su calcolatore
ad es. spostare i codici di risposta contro il margine destro della pagina
Informazioni da inserire nel foglio
introduttivo dei questionari
• Struttura della ricerca
• Nome dell’ intervistatore (o del direttore dello studio nelle
ricerche che utilizzano questionari per posta)
• Argomento dello studio
• Sponsor
• Riservatezza
• Anonimato
• Scopo della ricerca
• Uso dei dati raccolti
• Tecnica di campionamento
• Lunghezza dello studio
• Partecipazione volontaria
• Dimensione del campione
• Richiesta di consenso
Verifica e fasi finali della messa a punto di
un questionario
•
•
Correggere la prima bozza del questionario
Somministrare il questionario a un campione facilmente accessibile
•
Fornire le istruzioni per l’uso e addestrare gli intervistatori mediante
un test pilota
•
•
•
•
•
Se ci sono dei problemi, vanno risolti in questa fase
Testare il questionario su un campione di 20-50 persone
rappresentativo della popolazione a cui appartengono i soggetti da
esaminare
Raccogliere le osservazioni degli intervistatori e degli intervistati,
possibilmente per iscritto
Correggere le domande che mettono in difficoltà
Ripetere il test e rivedere gli eventuali punti critici
Elaborare corrette istruzioni e preparare gli intervistatori per l’avvio
dello studio
•
parenti amici, colleghi, voi stessi
Se emergono altri problemi effettuare un’ulteriore revisione.
Seguire attentamente le prime fasi dello studio ed esser pronti a
ulteriori modifiche, se necessario
Struttura di un archivio dei dati
Concetti di base
• Unità statistica
Minima unità da cui si raccolgono i dati in una
indagine
Individuo
Famiglia
Regione
Squadra
Gara
• Variabile
Caratteristica che può assumere valori diversi nelle
diverse unità statistiche
Altezza dei bambini di una classe
Peso degli atleti
Età dei pazienti di una clinica
Concetti di base
• Modalità
Valore
assunto da una
determinata unità statistica
Individuo
Peso
Giorgio
80 kg
Mario
75 kg
Roberto
77 kg
variabile
Modalità
in
una
Tipo di variabili
• Le variabili si possono distinguere in due
gruppi
Variabili
numeriche
Discrete: es. n° figli, n° volte/die
Continue: es. peso, altezza, …
Variabili categoriche
Binomiali: es. genere
Nominali: es. tipo di sport, etnia
Ordinali: gravità del sintomo, titolo di studio
Organizzazione dei dati
• I dati raccolti in uno studio devono essere
organizzati in maniera razionale
• Ogni riga rappresenta un’unità statistica
•È
importante
avere
un
codice
identificativo
univoco
per
ogni
osservazione (variabile id)
Organizzazione dei dati
• Ogni colonna riporta i diversi valori di una
variabile
Uso di un codice identificativo
• Il codice identificativo è la “chiave” che
permette di collegare le informazioni
raccolte con i dati personali dell’individuo
• È univoco, ovvero ne esiste solo uno per
ogni soggetto
• Il codice identificativo deve essere inserito
sia sul modulo di raccolta dati (es. sulla
prima
pagina
del
questionario)
che
nell’archivio dei dati
Privacy
• Legge sulla privacy 196/2003
• I dati sanitari sono dati “sensibili”
• Bisogna adoperare delle precauzioni per
evitare di diffondere queste informazioni
• È
conveniente
utilizzare
un
codice
identificativo univoco, che non ha nessun
significato al di fuori del progetto di lavoro
• Una volta assegnato il codice identificativo i
dati personali possono essere rimossi e
conservati separatamente
La legenda
• La legenda è il collegamento tra il
questionario ed i dati inseriti nel computer
• Durante l’analisi dei dati le variabili vengono
richiamate per nome
Devono
avere un nome breve
Se le variabili registrate sono poche è meglio
usare un nome che aiuti nel ricordare la variabile
Se le variabili registrate sono molte (es. un
questionario con centinaia di domande) è meglio
usare nomi che derivano dal numero delle
domande nel questionario (q1, q2, q3, …)
La legenda
Etichette delle variabili
• Alcuni
software
statistici
consentono
l’impiego di etichette per le variabili
storage display
value
variable name
type
format
label
variable label
-----------------------------------------------------------------idnum
int
%3.0f
cod. identificativo
datanas
long
%d
data di nascita
artodom
byte
%1.0f
lbl
arto dominante
Etichette dei valori
• Alcuni software statistici consentono
l’impiego di etichette dei valori nel
caso di variabili categoriche
. tabulate artodom, nolabel
arto |
dominante |
Freq.
Percent
Cum.
------------+----------------------------------1 |
305
84.49
84.49
2 |
47
13.02
97.51
3 |
9
2.49
100.00
------------+----------------------------------Total |
361
100.00
Etichette dei valori
• Alcuni software statistici consentono
l’impiego di etichette dei valori nel caso
di variabili categoriche
. tabulate artodom
arto |
dominante |
Freq.
Percent
Cum.
------------+----------------------------------destro |
305
84.49
84.49
sinistro |
47
13.02
97.51
ambidestro |
9
2.49
100.00
------------+----------------------------------Total |
361
100.00
La gestione dei dati
Problemi nella gestione dei dati
• Quando
si
raccolgono,
utilizzano
e
conservano dei dati, si possono verificare:
Errori
Perdita
di tempo
Perdita di informazioni
Inserimento dei dati
• Per piccoli set di dati, si possono inserire i dati
raccolti in un foglio di lavoro di Excel, ma, con
grandi dataset, questo sistema diventa complesso e
suscettibile di errori
Inserimento dei dati
• È meglio usare un programma di “Data-entry”
• Prima di inserire i dati va definita la legenda
• Una frequente forma di errore è che la risposta
giusta viene registrata nella domanda sbagliata
La risposta sull’arrossamento “dietro le ginocchia”
viene registrata nel campo “sulle caviglie”
• Non inserire i dati tutti insieme
• Inserire i dati due volte
Correggere poi gli errori in entrambi gli archivi
• Una volta scoperto un errore, controllare i valori
vicini
IL DATA ENTRY: Obiettivi
• Ottenere archivi che
trattabili con facilità:
contengano
dati
numeri
categorie
numerate
date
• Importare i dati da un formato compatibile
con il package statistico a disposizione:
da
formati di altri pacchetti statistici
da files di database
dai quali possono ereditati i nomi dei caratteri
statistici e le relative proprietà
da testo ASCII
Creazione di variabili derivate
• E’ opportuno evitare di fare calcoli prima
del data-entry
• Potremo in seguito costruire delle nuove
variabili a partire dai dati elementari
registrati nel questionario
Indice
di massa corporea, es.:
Un bambino di 10 anni, Peso=43 kg
Altezza=1,43 m
IMC =
43 kg
(1,43 m)2
= 21 kg/m2
DATA ENTRY
Requisiti di un buon programma dedicato (1)
• Riprodurre
la
scheda
di
inserimento
informatica in modo simile alla scheda
cartacea;
• Permettere la visualizzazione sullo schermo
di domande e risposte;
• Offrire un aiuto su schermo;
• Applicare dei check sulle variabili in entrata;
• Applicare dei salti condizionati (p.e: i maschi
saltano domande specifiche per le donne)
DATA ENTRY
Requisiti di un buon programma dedicato (2)
• Controllare il rendimento del data entry;
• Ridurre i costi di stampa e di accumulo di
carta;
• Applicare delle regole definite per la
codifica dei dati missing
• Essere “failure safe” (archiviare ogni
record inserito su disco)
DATA ENTRY:
Metodo 1 - Il doppio Input
• I dati sono introdotti da due diversi staff
separatamente.
E’ possibile evidenziare le differenze e correggerle
• L’input dei dati può essere effettuato da
personale non specializzato;
E’ un metodo veloce
I dati rispecchiano esattamente la copia cartacea
E’ il “golden standard” per i dati testuali, dove non è
possibile altra validazione
Se la versione cartacea è errata, la copia informatica è
errata
E’ necessario il doppio del personale
DATA ENTRY:
Metodo 2 - Check automatico in inserimento
• Un apposito programma costruito per questa
fase si occupa di effettuare numerosi controlli
di congruità sui dati all’ atto del loro
inserimento;
• L’input dei dati può essere svolto da personale
di segreteria;
• Viene usato nei dipartimenti governativi
anglosassoni
I dati vengono “puliti” al momento e sono inseriti nell’
archivio
Si richiede un supervisore per correggere errori o risposte
non previste in anticipo
Richiede una attività di programmazione complessa e
strutturata
DATA ENTRY:
Metodo 3 - Controllo dati ad inserimento avvenuto
• Il programma di data entry effettua pochi
controlli di congruità;
• L’input dei dati viene svolto da una persona
appositamente pagata:
che capisce i dati, e quindi si accorge dei dati errati o
“strani”
• E’ utilizzato negli studi epidemiologici
Non serve personale di segreteria
Il programma di data entry è semplice da approntare
I dati vanno controllati prima dell’analisi
In caso di risposte non previste, questo sistema si
presta ad interpretazioni “estemporanee” da parte di
chi realizza questa fase
DATA ENTRY:
Metodo 4 - Formati a riconoscimento ottico
• Le risposte sono segnate su un formato a
griglia, predisposto per la lettura automatica
con uno scanner;
• E’
richiesto
personale
che
verifichi
il
funzionamento in acquisizione del calcolatore;
• E’ utilizzato per la richiesta di esami di
laboratorio
Non c’ è data entry manuale
Sono spesso necessarie molte correzioni
Ci sono limitazioni sul tipo di dati acquisibili (difficile
acquisizione per i dati testuali)
I compilatori della scheda prestampata devono essere
motivati
E’ un metodo costoso
DATA ENTRY:
Metodo 5 - Interviste guidate dal computer
• Le risposte al questionario vengono digitate nel
computer durante l’intervista;
• E’ utilizzato da intervistatori pagati ad intervista;
• E’ utilizzato per ricerche di mercato
Data entry e validazione possono essere contestuali
E’ possibile strutturare il questionario in modo complesso
Permette un campionamento all’interno dell’intervista
Rafforza i codici validi
Permette il controllo della resa dell’intervistatore
Non esiste una copia cartacea
Non possono essere inseriti commenti non previsti
E’ un metodo costoso
La programmazione sul computer può essere molto
complessa
VALIDAZIONE DEI DATI
• L’ obiettivo del processo di validazione iniziale
dei dati raccolti e’ di effettuare controlli su:
gli
errori di digitazione;
le risposte che potrebbero essere errate;
gli errori sistematici legati agli intervistatori;
gli errori di progettazione o di programmazione;
• L’ azione di revisione dei dati nel dettaglio può
essere svolta direttamente se le unità
statistiche rilevate sono poco numerose,
mentre per la revisione dei dati di campioni
più numerosi è necessario
un programma
computerizzato;
VALIDAZIONE DEI DATI
Gli Errori
• Per ogni domanda, il dato archiviato deve
avere di lunghezza inferiore o pari alla massima consentita;
appartenere al tipo previsto
essere coerente con le proprietà del dato;
appartenere ad una delle categorie predefinite o essere contenuto
all’interno di un range di valori possibili;
sempre presente, se definito come indispensabile;
• Nella stessa intervista, una risposta dovrebbe essere
coerente con le precedenti domande;
compilata solo se coerente con il “pattern di scavalcamento”
definito;
• Tra diverse interviste, le risposte dovrebbero essere
coerenti con le risposte precedenti;
VALIDAZIONE DEI DATI
Le “tracce sospette”
•Dobbiamo sospettare un
raccolta o di data entry se:
la risposta è:
errore
nella
troppo arrotondata o vicina ai limiti min o max
manca senza un preciso motivo
le
risposte della stessa intervista:
seguono un pattern preciso
– sono messe in serie, senza leggerle?
non seguono alcun pattern
– sono messe a caso?
sono troppo perfette
– sono indotte dall’intervistatore
– sono “aggiustate” ad arte?
fase
di
Dati “DIFFICILI”
• Quali dati ci danno problemi?
Testi liberi
Definire categorie a cui riportare ogni risposta
– questa fase può essere svolta a mano o con l’ ausilio di programmi al
calcolatore
Dati mancanti o non accettabili: possibili strategie
Omettere dall’ analisi i dati mancanti
Considerare “mancante” come una categoria a parte
Ricostruire valori da attribuire
Attribuire ai dati mancanti il valore minimo prima e
massimo poi e svolgere due analisi separate
In ogni caso è importante sempre documentare le
strategie scelte nella gestione dei testi liberi e dei dati
“missing”
Dati mancanti o non accettabili
Metodo 1 - Ometterli
• Assunto di base:
il dato viene considerato superfluo, privo di potenziale
informativo
• Vantaggi
soluzione rapida e facile;
• Svantaggi
non si usano tutti i dati;
si introduce un errore se l’assenza non è casuale;
non si cerca di spiegare il perchè dei dati mancanti;
incoraggia le estrapolazioni indebite;
gli intervalli di confidenza si allargano se il dato
mancante è frequente
perchè è ridotto il numero
considerate nel calcolo
delle
unità
statistiche
Dati mancanti o non accettabili
Metodo 2 - Il dato “mancante” è una categoria
• Assunto di base:
il dato non è superfluo, se manca c’ è un motivo
rilevante
• Vantaggi
soluzione rapida e facile;
si cerca di spiegare il perchè delle non compilazioni;
si usano tutti i dati raccolti;
• Svantaggi
non si possono applicare tutte le tecniche statistiche;
crea grossi problemi nel calcolo di score complessivi;
Dati mancanti o non accettabili
Metodo 3 - Ricostruire valori da attribuire
• Assunto di base:
è possibile stimare i dati mancanti sulla base di un
modello logico o matematico
• Il rischio di giungere a stime sbagliate è
diverso se si fa riferimento a:
plausibilità logica ;
risposte su altre domande di argomento affine o analogo;
interdipendenza tra le risposte;
modello presupposto: probabilità condizionata a
risposte note
indici di tendenza centrale;
modello presupposto: costanza tra più compilatori
Dati mancanti o non accettabili
Metodo 3 - Ricostruire valori da attribuire
• Vantaggi
si cerca di spiegare il perchè delle non compilazioni;
si usano tutti i dati raccolti;
permette di applicare metodi statistici complessi
utilizzando tutte le unità statistiche;
Svantaggi
nasconde il valore mancante iniziale
introduce errore se il dato mancava non per caso
perchè si è assimilato quel soggetto agli altri
è necessario realizzare calcoli complessi
scoraggia lo studio dei motivi alla base delle non
compilazioni
Dati mancanti o non accettabili
Metodo 4 - L’ analisi di “scenario”
• Assunto di base
il valore non è più estremo di quelli rilevati in altri soggetti
• Metodo
si costruiscono due set di dati, nei quali vengono attribuiti:
nel primo a tutti i mancanti il valore minimo rilevato;
nel secondo a tutti i mancanti il valore massimo rilevato;
si studiano separatemente i due set di dati (“scenari”);
le conclusioni vere si presuppone staranno nel mezzo;
• Vantaggi
permette di applicare metodi statistici complessi utilizzando
tutte le unità statistiche;
• Svantaggi
doppia elaborazione necessaria;
risultati molto dispersi se il range min-max dei valori noti è
ampio;
Documentare i passi svolti
• E’ fondamentale scrivere un documento che
testimoni i principali passaggi svolti nel
processo:
la raccolta dei dati;
il metodo di inserimento utilizzato;
la qualità dell’inserimento
validazione);
quantità e qualità dei dati missing;
gestione dei dati missing e dei dati testuali;
descrizione dei files utilizzati nel processo (nomi, tipo,
date e dimensione); backup;
(errori
trovati
nella
Back-up ed archiviazione
• Obiettivo del back up è quello di essere in
grado di recuperare i dati ed i documenti in
caso di distruzione o perdita di dati
È
un’attività da svolgere di routine
• L’archiviazione ha luogo una o poche volte
nell’arco della vita di un progetto
Ricerca degli errori
• Fai una stampa di:
Legenda
Elenco
delle variabili
Tabelle di frequenza delle variabili
• Confronta la legenda originale con quella
derivata dai dati inseriti
• Osserva le tabelle per evidenziare valori
improbabili, massimo e minimo
• Osserva il numero delle osservazioni
• Osserva se sono presenti dati incoerenti
Maschi
in gravidanza
Ricerca degli errori
• Una volta identificati valori sospetti, elenca
i dati con il corrispondente id e controlla se
sono corretti
• Se ci sono dati incoerenti (maschi in
gravidanza)
Ricodifica
i valori a valori mancanti
• Se ci sono dati mancanti
A
volte puoi dedurre questi valori da altre
informazioni per lo stesso soggetto (data imput)
Es. donna, con tre figli di 19, 6 e 1 anno
– Età??
Unione di archivi di dati
• Se hai raccolto dati sugli stessi soggetti in
misurazioni successive, puoi unire i due
files corrispondenti
merge
• Se hai raccolto informazioni su altri
soggetti in un secondo momento, puoi
unire i due files corrispondenti
append
Strutture dei database
• Modelli logici
Modello
Gerarchico
Modello Reticolare
Modello Relazionale
• Modelli concettuali
Il
modello Entità-Relazione
Strutture dei database
Encyclopedia Britannica, Information processing and information systems, 1994
• Gerarchica
i
record sono organizzati in uno schema simile ad
un albero genealogico, ed i record sono legati uno
all’altro dall’alto verso il basso
le
relazioni sono mantenute attraverso dei
puntatori (identificatori quali indirizzi o codici
chiave) che sono parte del record
• Reticolare
• Relazionale
Strutture dei database
Encyclopedia Britannica, Information processing and information systems, 1994
• Gerarchica
• Reticolare
i
record sono organizzati in gruppi noti come set
ogni set può essere collegato agli altri in molti
modi, attraverso puntatori
• Relazionale
Strutture dei database
Encyclopedia Britannica, Information processing and information systems, 1994
• Gerarchica
• Reticolare
• Relazionale
consiste
in più tabelle bidimensionali (o matrici)
è semplice, è dotato di basi teoriche (algebra
relazionale), non utilizza i puntatori per mantenere
le relazioni
Il database relazionale
• Tipologie di
database:
relazioni
fra
tabelle
del
uno
ad uno: per ogni record della Tabella A è
presente uno e un solo record della Tabella B
uno
a molti: per ogni record della Tabella A
possono essere presenti n record della Tabella B
Il database relazionale
Un esempio di database relazionale:
molti
Anagrafica 1
ID paziente
Cognome
Nome
Sesso
Data di nascita
Luogo di nascita
Luogo di residenza
Ricoveri
ID ricovero
ID paziente
Data ingresso
Data dimissione
Reparto di Dimissione
Diagnosi principalemolti
Procedura principale
DRG
molti
1
Identificativo
primario
1 ICD9CM Diagnosi
Codice diagnosi
Descrizione diagnosi
ICD9CM procedure
Codice procedura
Descrizione procedura
Corso di perfezionamento “Statistica ed informatica per le aziende sanitarie”
Il database relazionale
• Vincoli del sistema relazionale:
molti
Anagrafica 1
ID paziente
Cognome
Nome
Sesso
Data di nascita
Luogo di nascita
Luogo di residenza
Ricoveri
ID ricovero
ID paziente
Data ingresso
Data dimissione
Reparto di Dimissione
Diagnosi principale
Procedura principale
DRG
Quando si inserisce un
record nella tabella
ricoveri che fa
riferimento ad un record
della tabella anagrafica
quest’ultimo record non
può più essere cancellato,
nè può essere modificato
l’ID primario
Modello entità-relazione: alcuni costrutti
principali
• Entità: classi di oggetti che
hanno proprietà comuni ed
esistenza “autonoma” ai
fini dell’indagine
• Relazione:
un
legame
logico, significativo per
l’analisi, tra due o più
entità
Paziente
Esame
Servizio
Modello entità-relazione: alcuni costrutti
principali
• Attributo: Descrive proprietà elementari di
entità o relazioni di interesse ai fini dell’
analisi
un
attributo
associa
a
ciascuna
occorrenza di entità (studio di una unità
statistica) un valore appartenente ad un
insieme, detto dominio dell’ attributo, che
contiene i valori ammissibili (Modalità)
può essere semplice o composto
Cognome
CAP
Indirizzo
Via
Paziente
Età
Modello entità-relazione: alcuni costrutti
principali
• Cardinalità delle relazioni: per ciascuna
entità che partecipa alla relazione descrivono
il numero minimo e massimo di occorrenze
di relazione a cui le occorrenze delle entità
coinvolte possono partecipare
es. Da 3 a 5 chirurghi compongono una
equipe operatoria, che può svolgere in
una giornata da nessuno a 4 interventi
(3,5)
Chirurgo
(min,max)
(0,4)
Equipe
Intervento
Cardinalità di relazioni: tipi principali
Uno a uno
Richiesta
esame
(1,1)
(0,1)
Esecuzione
(0,N)
(1,1)
Uno a molti
Paziente
Residenza
Paziente
Città
(0,N)
(1,N)
Molti a molti
Referto
Ricovero
Ospedali
Unione di archivi di dati
• Se hai raccolto dati sugli stessi soggetti in
misurazioni successive, puoi unire i due
files corrispondenti
Unione di archivi di dati
• Se hai raccolto informazioni su altri
soggetti in un secondo momento, puoi
unire i due files corrispondenti
Architetture di Database
• Modello singolo utente Stand Alone
• Modello multiutente
Client-server
Il database Stand Alone
Il database risiede
fisicamente sulla
memoria di massa di
un calcolatore e può
essere utilizzato
soltanto da un utente
alla volta e soltanto su
quel calcolatore
Il database Stand Alone
• Vantaggi
economico
legato
alla potenza di calcolo del calcolatore
locale
• Limiti
single-user
Il database multiutente
• Il database risiede sulla memoria di massa di
un calcolatore collegato in rete;
• lo stesso database può essere utilizzato da più
utenti contemporaneamente;
Database
Il database multiutente
• Vantaggi:
si
può utilizzare il database in contemporanea su più
calcolatori
la velocità di funzionamento è funzione della potenza
di calcolo dell’elaboratore locale e dell’ampiezza di
banda della rete;
Il database multiutente
• Vincoli:
il
database deve essere progettato per la
multiutenza
generazione di lock sui record modificati
tutti gli utenti debbono avere acceso
completo (RW-) ad file del database
rischi per la sicurezza
– cancellazioni involontarie o dolose
– corruzione del file in caso
di crash di un
calcolatore
L’ architettura server-client
• Il database risiede fisicamente sulla memoria di
massa di un calcolatore detto SERVER
• l’unico software che accede fisicamente al
database è il SERVER DI DATABASE
• i calcolatori periferici (CLIENT) non accedono
fisicamente al file, ma interrogano il server, che,
accedendo al file, processa la richiesta e fornisce
la risposta al client
L’ architettura server-client
Server
Database
Richiesta di dati
al server
Client
Accesso fisico
al database
Risposta al client
con invio dei
dati richiesti
L’ architettura server-client
• Vantaggi
si
può utilizzare il database in contemporanea su
più calcolatori, anche connessi in rete geografica
l’utente non deve avere accesso (neanche in R--) al
file del database
i calcolatori client posso avere risorse limitate
il rischio di corruzione del file è associato al solo
malfunzionamento del server
L’ architettura server-client
• Vincoli
il
database
deve
essere
specificamente
ingegnerizzato per questa architettura
la velocità di risposta è funzione:
della banda passante della rete
della potenza dell’elaboratore server
del numero di accessi contemporanei al server
il fermo macchina del server rende inservibile
tutto il sistema di database
L’ architettura server-client
• Database in
commerciali
architettura
(es. GISS…)
SQL Server
Sybase
Informix
Mumps
Oracle
client-server
Esercitazione
• Immagina di raccogliere dati con un
questionario sulle abitudini di vita degli
stessi soggetti in 4 diverse stagioni
dell’anno. I soggetti sono residenti in città
diverse.
Come
si
può
relazionale?
strutturare
un
database