I sistemi di data Entry

Anno Accademico 2009/2010
Corso di Laurea Triennale in Scienze Motorie
C.I. Analisi dei dati motori e sportivi
Modulo: Metodi epidemiologici
(per Classe 33: Raccolta ed organizzazione dei dati)
Prof. Giovanni Capelli (Dr. Bruno Federico)
Facoltà di Scienze Motorie
Università di Cassino - [email protected]
La raccolta dei dati con un questionario
Formato finale del questionario
•
•
•
•
•
•
•
•
usare carta resistente
usare un formato libro
assegnare un numero codice ad ogni questionario
assegnare ad ogni domanda un numero
progressivo
lasciare spazio sufficiente tra i quesiti
non spezzare le domande tra due pagine
usare caratteri di stampa diversi per le istruzioni,
le domande e le relative risposte
evidenziare con vari artifici le parti più importanti
delle domande
Il formato grafico
• Nell’elaborazione di un questionario, vanno
considerate le esigenze di due persone:
 La
persona che compilerà il questionario
Semplicità, chiarezza
 La persona che elaborerà l’informazione raccolta
• La persona che compilerà il questionario ha
la precedenza
• Le stesse regole di semplicità e chiarezza
valgono per:
 Interviste
strutturate
 Moduli per l’estrazione dei dati
Il formato grafico
•
•
•
•
Lasciare spazio sufficiente tra i quesiti
Non spezzare le domande tra due pagine
Le domande vanno scritte in grassetto
Le categorie di risposte vanno scritte con
carattere normale
• Le istruzioni vanno scritte in corsivo
• Per le domande chiuse la risposta viene
fornita ponendo un segno sul codice
corrispondente
• Per le domande aperte le risposte vanno
inserite nello spazio previsto
Un esempio di questionario
Definizione delle risposte possibili
• Le risposte devono essere esaustive e
mutuamente esclusive
• In alcuni casi la domanda non può essere
rivolta
• In altri, la domanda è posta, ma la persona
non risponde
• In altri ancora, la persona risponde “Non
so”
Variabili categoriche
• Evitare l’inserimento di testo
• È conveniente utilizzare dei codici numerici
per le variabili categoriche
 Questi
codici
vanno
dell’inserimento dei dati
definiti
prima
Variabili categoriche: risposte
Variabili categoriche: domande
Variabili categoriche: risposte
Variabili numeriche
• Evitare
di
raccogliere
informazioni
aggregate per le variabili numeriche
 Per
chi risponde è altrettanto agevole indicare
l’età piuttosto che scegliere tra una serie di
classi d’età pre-definite
 È ancora meglio raccogliere anno e mese di
nascita, così saremo in grado di calcolare
agevolmente l’età del rispondente a qualsiasi
data
Variabili numeriche: risposte
Fattori che influenzano la
formulazione di un questionario
1. Chi deve compilare il questionario
* Autocompilazione
* Intervistatori
2. Quanti argomenti “delicati” devono essere affrontati
* Argomenti complessi
* Argomenti imbarazzanti
* Argomenti che possono offendere
3. Quanti soggetti devono essere intervistati
4. Quante variabili devono essere indagate
* Lunghezza del questionario
1. Chi deve compilare il questionario
Autocompilazione
Il soggetto al quale viene
questionario potrà:
• Segnare caselle
• Cerchiare risposte
• Scrivere numeri o testo
consegnato
Intervistatori
Agli intervistatori viene in genere richiesto di:
• Cerchiare risposte
• Scrivere numeri in apposite caselle
il
2. Il contenuto
Il
•
•
•
soggetto che compila il questionario potrà:
Seguire istruzioni semplici
Saltare gli argomenti “difficili”
Non completare il questionario
Ma gli intervistatori dovrebbero sempre:
• Seguire le istruzioni semplici
• Fare le domande “difficili”
• Compilare, se possibile, tutte le risposte
3. La numerosità del campione sul
quale si esegue l’indagine
A. Su piccoli campioni (studi pilota, studi ad hoc) si
può prendere in considerazione anche la raccolta
di dati che presentano problemi di codifica:
*
*
B.
Risposte testuali aperte
Risposte multiple (es. “tutti i mestieri che hai fatto nella
vita”)
Su grandi campioni (studi di popolazione,
questionari spediti per via postale) è necessario:
*
*
*
Far scegliere tra più opzioni chiuse precodificate
Inserire un codice “altro” per le eccezioni
Ridurre al massimo i “salti condizionati”
(es. se Maschio vai alla domanda X, se Femmina vai alla
domanda Y)
*
Ridurre al massimo il testo
Regole da seguire nel formulare domande
individuali
• Utilizzare differenti caratteri per differenti sezioni di diverse
domande

es. maiuscolo per la domanda, neretto per le risposte alternative,
corsivo per le istruzioni
• Aggiungere specifiche istruzioni e suggerimenti (per gli
intervistatori) a ciascuna domanda
• Usare il formato verticale per la risposta
• Pre-codificare tutte le domande a risposta chiusa
• Utilizzare sempre lo stesso numero di codice per particolari
categorie di risposte
• Individuare le risposte alle domande a risposta chiusa
circondando il numero di codice o la risposta alternativa
• Riservare spazi o caselle per le domande a risposta aperta
• Considerare la fruibilità dei formati per l’input su calcolatore

ad es. spostare i codici di risposta contro il margine destro della pagina
Informazioni da inserire nel foglio
introduttivo dei questionari
• Struttura della ricerca
• Nome dell’ intervistatore (o del direttore dello studio nelle
ricerche che utilizzano questionari per posta)
• Argomento dello studio
• Sponsor
• Riservatezza
• Anonimato
• Scopo della ricerca
• Uso dei dati raccolti
• Tecnica di campionamento
• Lunghezza dello studio
• Partecipazione volontaria
• Dimensione del campione
• Richiesta di consenso
Verifica e fasi finali della messa a punto di
un questionario
•
•
Correggere la prima bozza del questionario
Somministrare il questionario a un campione facilmente accessibile

•
Fornire le istruzioni per l’uso e addestrare gli intervistatori mediante
un test pilota

•
•
•
•
•
Se ci sono dei problemi, vanno risolti in questa fase
Testare il questionario su un campione di 20-50 persone
rappresentativo della popolazione a cui appartengono i soggetti da
esaminare
Raccogliere le osservazioni degli intervistatori e degli intervistati,
possibilmente per iscritto
Correggere le domande che mettono in difficoltà
Ripetere il test e rivedere gli eventuali punti critici
Elaborare corrette istruzioni e preparare gli intervistatori per l’avvio
dello studio

•
parenti amici, colleghi, voi stessi
Se emergono altri problemi effettuare un’ulteriore revisione.
Seguire attentamente le prime fasi dello studio ed esser pronti a
ulteriori modifiche, se necessario
Struttura di un archivio dei dati
Concetti di base
• Unità statistica

Minima unità da cui si raccolgono i dati in una
indagine
 Individuo
 Famiglia
 Regione
 Squadra
 Gara
• Variabile

Caratteristica che può assumere valori diversi nelle
diverse unità statistiche
 Altezza dei bambini di una classe
 Peso degli atleti
 Età dei pazienti di una clinica
Concetti di base
• Modalità
 Valore
assunto da una
determinata unità statistica
Individuo
Peso
Giorgio
80 kg
Mario
75 kg
Roberto
77 kg
variabile
Modalità
in
una
Tipo di variabili
• Le variabili si possono distinguere in due
gruppi
 Variabili
numeriche
Discrete: es. n° figli, n° volte/die
Continue: es. peso, altezza, …
 Variabili categoriche
Binomiali: es. genere
Nominali: es. tipo di sport, etnia
Ordinali: gravità del sintomo, titolo di studio
Organizzazione dei dati
• I dati raccolti in uno studio devono essere
organizzati in maniera razionale
• Ogni riga rappresenta un’unità statistica
•È
importante
avere
un
codice
identificativo
univoco
per
ogni
osservazione (variabile id)
Organizzazione dei dati
• Ogni colonna riporta i diversi valori di una
variabile
Uso di un codice identificativo
• Il codice identificativo è la “chiave” che
permette di collegare le informazioni
raccolte con i dati personali dell’individuo
• È univoco, ovvero ne esiste solo uno per
ogni soggetto
• Il codice identificativo deve essere inserito
sia sul modulo di raccolta dati (es. sulla
prima
pagina
del
questionario)
che
nell’archivio dei dati
Privacy
• Legge sulla privacy 196/2003
• I dati sanitari sono dati “sensibili”
• Bisogna adoperare delle precauzioni per
evitare di diffondere queste informazioni
• È
conveniente
utilizzare
un
codice
identificativo univoco, che non ha nessun
significato al di fuori del progetto di lavoro
• Una volta assegnato il codice identificativo i
dati personali possono essere rimossi e
conservati separatamente
La legenda
• La legenda è il collegamento tra il
questionario ed i dati inseriti nel computer
• Durante l’analisi dei dati le variabili vengono
richiamate per nome
 Devono
avere un nome breve
 Se le variabili registrate sono poche è meglio
usare un nome che aiuti nel ricordare la variabile
 Se le variabili registrate sono molte (es. un
questionario con centinaia di domande) è meglio
usare nomi che derivano dal numero delle
domande nel questionario (q1, q2, q3, …)
La legenda
Etichette delle variabili
• Alcuni
software
statistici
consentono
l’impiego di etichette per le variabili
storage display
value
variable name
type
format
label
variable label
-----------------------------------------------------------------idnum
int
%3.0f
cod. identificativo
datanas
long
%d
data di nascita
artodom
byte
%1.0f
lbl
arto dominante
Etichette dei valori
• Alcuni software statistici consentono
l’impiego di etichette dei valori nel
caso di variabili categoriche
. tabulate artodom, nolabel
arto |
dominante |
Freq.
Percent
Cum.
------------+----------------------------------1 |
305
84.49
84.49
2 |
47
13.02
97.51
3 |
9
2.49
100.00
------------+----------------------------------Total |
361
100.00
Etichette dei valori
• Alcuni software statistici consentono
l’impiego di etichette dei valori nel caso
di variabili categoriche
. tabulate artodom
arto |
dominante |
Freq.
Percent
Cum.
------------+----------------------------------destro |
305
84.49
84.49
sinistro |
47
13.02
97.51
ambidestro |
9
2.49
100.00
------------+----------------------------------Total |
361
100.00
La gestione dei dati
Problemi nella gestione dei dati
• Quando
si
raccolgono,
utilizzano
e
conservano dei dati, si possono verificare:
 Errori
 Perdita
di tempo
 Perdita di informazioni
Inserimento dei dati
• Per piccoli set di dati, si possono inserire i dati
raccolti in un foglio di lavoro di Excel, ma, con
grandi dataset, questo sistema diventa complesso e
suscettibile di errori
Inserimento dei dati
• È meglio usare un programma di “Data-entry”
• Prima di inserire i dati va definita la legenda
• Una frequente forma di errore è che la risposta
giusta viene registrata nella domanda sbagliata

La risposta sull’arrossamento “dietro le ginocchia”
viene registrata nel campo “sulle caviglie”
• Non inserire i dati tutti insieme
• Inserire i dati due volte

Correggere poi gli errori in entrambi gli archivi
• Una volta scoperto un errore, controllare i valori
vicini
IL DATA ENTRY: Obiettivi
• Ottenere archivi che
trattabili con facilità:
contengano
dati
 numeri
 categorie
numerate
 date
• Importare i dati da un formato compatibile
con il package statistico a disposizione:
 da
formati di altri pacchetti statistici
 da files di database
dai quali possono ereditati i nomi dei caratteri
statistici e le relative proprietà
 da testo ASCII
Creazione di variabili derivate
• E’ opportuno evitare di fare calcoli prima
del data-entry
• Potremo in seguito costruire delle nuove
variabili a partire dai dati elementari
registrati nel questionario
 Indice
di massa corporea, es.:
Un bambino di 10 anni, Peso=43 kg
Altezza=1,43 m
IMC =
43 kg
(1,43 m)2
= 21 kg/m2
DATA ENTRY
Requisiti di un buon programma dedicato (1)
• Riprodurre
la
scheda
di
inserimento
informatica in modo simile alla scheda
cartacea;
• Permettere la visualizzazione sullo schermo
di domande e risposte;
• Offrire un aiuto su schermo;
• Applicare dei check sulle variabili in entrata;
• Applicare dei salti condizionati (p.e: i maschi
saltano domande specifiche per le donne)
DATA ENTRY
Requisiti di un buon programma dedicato (2)
• Controllare il rendimento del data entry;
• Ridurre i costi di stampa e di accumulo di
carta;
• Applicare delle regole definite per la
codifica dei dati missing
• Essere “failure safe” (archiviare ogni
record inserito su disco)
DATA ENTRY:
Metodo 1 - Il doppio Input
• I dati sono introdotti da due diversi staff
separatamente.

E’ possibile evidenziare le differenze e correggerle
• L’input dei dati può essere effettuato da
personale non specializzato;





E’ un metodo veloce
I dati rispecchiano esattamente la copia cartacea
E’ il “golden standard” per i dati testuali, dove non è
possibile altra validazione
Se la versione cartacea è errata, la copia informatica è
errata
E’ necessario il doppio del personale
DATA ENTRY:
Metodo 2 - Check automatico in inserimento
• Un apposito programma costruito per questa
fase si occupa di effettuare numerosi controlli
di congruità sui dati all’ atto del loro
inserimento;
• L’input dei dati può essere svolto da personale
di segreteria;
• Viene usato nei dipartimenti governativi
anglosassoni
I dati vengono “puliti” al momento e sono inseriti nell’
archivio
 Si richiede un supervisore per correggere errori o risposte
non previste in anticipo
 Richiede una attività di programmazione complessa e
strutturata

DATA ENTRY:
Metodo 3 - Controllo dati ad inserimento avvenuto
• Il programma di data entry effettua pochi
controlli di congruità;
• L’input dei dati viene svolto da una persona
appositamente pagata:

che capisce i dati, e quindi si accorge dei dati errati o
“strani”
• E’ utilizzato negli studi epidemiologici




Non serve personale di segreteria
Il programma di data entry è semplice da approntare
I dati vanno controllati prima dell’analisi
In caso di risposte non previste, questo sistema si
presta ad interpretazioni “estemporanee” da parte di
chi realizza questa fase
DATA ENTRY:
Metodo 4 - Formati a riconoscimento ottico
• Le risposte sono segnate su un formato a
griglia, predisposto per la lettura automatica
con uno scanner;
• E’
richiesto
personale
che
verifichi
il
funzionamento in acquisizione del calcolatore;
• E’ utilizzato per la richiesta di esami di
laboratorio





Non c’ è data entry manuale
Sono spesso necessarie molte correzioni
Ci sono limitazioni sul tipo di dati acquisibili (difficile
acquisizione per i dati testuali)
I compilatori della scheda prestampata devono essere
motivati
E’ un metodo costoso
DATA ENTRY:
Metodo 5 - Interviste guidate dal computer
• Le risposte al questionario vengono digitate nel
computer durante l’intervista;
• E’ utilizzato da intervistatori pagati ad intervista;
• E’ utilizzato per ricerche di mercato







Data entry e validazione possono essere contestuali
E’ possibile strutturare il questionario in modo complesso
 Permette un campionamento all’interno dell’intervista
 Rafforza i codici validi
Permette il controllo della resa dell’intervistatore
Non esiste una copia cartacea
Non possono essere inseriti commenti non previsti
E’ un metodo costoso
La programmazione sul computer può essere molto
complessa
VALIDAZIONE DEI DATI
• L’ obiettivo del processo di validazione iniziale
dei dati raccolti e’ di effettuare controlli su:
 gli
errori di digitazione;
 le risposte che potrebbero essere errate;
 gli errori sistematici legati agli intervistatori;
 gli errori di progettazione o di programmazione;
• L’ azione di revisione dei dati nel dettaglio può
essere svolta direttamente se le unità
statistiche rilevate sono poco numerose,
mentre per la revisione dei dati di campioni
più numerosi è necessario
un programma
computerizzato;
VALIDAZIONE DEI DATI
Gli Errori
• Per ogni domanda, il dato archiviato deve





avere di lunghezza inferiore o pari alla massima consentita;
appartenere al tipo previsto
essere coerente con le proprietà del dato;
appartenere ad una delle categorie predefinite o essere contenuto
all’interno di un range di valori possibili;
sempre presente, se definito come indispensabile;
• Nella stessa intervista, una risposta dovrebbe essere
coerente con le precedenti domande;
 compilata solo se coerente con il “pattern di scavalcamento”
definito;

• Tra diverse interviste, le risposte dovrebbero essere

coerenti con le risposte precedenti;
VALIDAZIONE DEI DATI
Le “tracce sospette”
•Dobbiamo sospettare un
raccolta o di data entry se:
la risposta è:
errore
nella
troppo arrotondata o vicina ai limiti min o max
manca senza un preciso motivo
le
risposte della stessa intervista:
seguono un pattern preciso
– sono messe in serie, senza leggerle?
non seguono alcun pattern
– sono messe a caso?
sono troppo perfette
– sono indotte dall’intervistatore
– sono “aggiustate” ad arte?
fase
di
Dati “DIFFICILI”
• Quali dati ci danno problemi?

Testi liberi
 Definire categorie a cui riportare ogni risposta
– questa fase può essere svolta a mano o con l’ ausilio di programmi al
calcolatore

Dati mancanti o non accettabili: possibili strategie
 Omettere dall’ analisi i dati mancanti
 Considerare “mancante” come una categoria a parte
 Ricostruire valori da attribuire
 Attribuire ai dati mancanti il valore minimo prima e
massimo poi e svolgere due analisi separate

In ogni caso è importante sempre documentare le
strategie scelte nella gestione dei testi liberi e dei dati
“missing”
Dati mancanti o non accettabili
Metodo 1 - Ometterli
• Assunto di base:

il dato viene considerato superfluo, privo di potenziale
informativo
• Vantaggi

soluzione rapida e facile;
• Svantaggi





non si usano tutti i dati;
si introduce un errore se l’assenza non è casuale;
non si cerca di spiegare il perchè dei dati mancanti;
incoraggia le estrapolazioni indebite;
gli intervalli di confidenza si allargano se il dato
mancante è frequente
 perchè è ridotto il numero
considerate nel calcolo
delle
unità
statistiche
Dati mancanti o non accettabili
Metodo 2 - Il dato “mancante” è una categoria
• Assunto di base:

il dato non è superfluo, se manca c’ è un motivo
rilevante
• Vantaggi



soluzione rapida e facile;
si cerca di spiegare il perchè delle non compilazioni;
si usano tutti i dati raccolti;
• Svantaggi


non si possono applicare tutte le tecniche statistiche;
crea grossi problemi nel calcolo di score complessivi;
Dati mancanti o non accettabili
Metodo 3 - Ricostruire valori da attribuire
• Assunto di base:

è possibile stimare i dati mancanti sulla base di un
modello logico o matematico
• Il rischio di giungere a stime sbagliate è
diverso se si fa riferimento a:




plausibilità logica ;
risposte su altre domande di argomento affine o analogo;
interdipendenza tra le risposte;
modello presupposto: probabilità condizionata a
risposte note
indici di tendenza centrale;
modello presupposto: costanza tra più compilatori
Dati mancanti o non accettabili
Metodo 3 - Ricostruire valori da attribuire
• Vantaggi



si cerca di spiegare il perchè delle non compilazioni;
si usano tutti i dati raccolti;
permette di applicare metodi statistici complessi
utilizzando tutte le unità statistiche;
 Svantaggi




nasconde il valore mancante iniziale
introduce errore se il dato mancava non per caso
perchè si è assimilato quel soggetto agli altri
è necessario realizzare calcoli complessi
scoraggia lo studio dei motivi alla base delle non
compilazioni
Dati mancanti o non accettabili
Metodo 4 - L’ analisi di “scenario”
• Assunto di base

il valore non è più estremo di quelli rilevati in altri soggetti
• Metodo
si costruiscono due set di dati, nei quali vengono attribuiti:
 nel primo a tutti i mancanti il valore minimo rilevato;
 nel secondo a tutti i mancanti il valore massimo rilevato;
 si studiano separatemente i due set di dati (“scenari”);
 le conclusioni vere si presuppone staranno nel mezzo;

• Vantaggi

permette di applicare metodi statistici complessi utilizzando
tutte le unità statistiche;
• Svantaggi
doppia elaborazione necessaria;
 risultati molto dispersi se il range min-max dei valori noti è
ampio;

Documentare i passi svolti
• E’ fondamentale scrivere un documento che
testimoni i principali passaggi svolti nel
processo:

la raccolta dei dati;

il metodo di inserimento utilizzato;

la qualità dell’inserimento
validazione);

quantità e qualità dei dati missing;

gestione dei dati missing e dei dati testuali;

descrizione dei files utilizzati nel processo (nomi, tipo,
date e dimensione); backup;
(errori
trovati
nella
Back-up ed archiviazione
• Obiettivo del back up è quello di essere in
grado di recuperare i dati ed i documenti in
caso di distruzione o perdita di dati
È
un’attività da svolgere di routine
• L’archiviazione ha luogo una o poche volte
nell’arco della vita di un progetto
Ricerca degli errori
• Fai una stampa di:
 Legenda
 Elenco
delle variabili
 Tabelle di frequenza delle variabili
• Confronta la legenda originale con quella
derivata dai dati inseriti
• Osserva le tabelle per evidenziare valori
improbabili, massimo e minimo
• Osserva il numero delle osservazioni
• Osserva se sono presenti dati incoerenti
 Maschi
in gravidanza
Ricerca degli errori
• Una volta identificati valori sospetti, elenca
i dati con il corrispondente id e controlla se
sono corretti
• Se ci sono dati incoerenti (maschi in
gravidanza)
 Ricodifica
i valori a valori mancanti
• Se ci sono dati mancanti
A
volte puoi dedurre questi valori da altre
informazioni per lo stesso soggetto (data imput)
Es. donna, con tre figli di 19, 6 e 1 anno
– Età??
Unione di archivi di dati
• Se hai raccolto dati sugli stessi soggetti in
misurazioni successive, puoi unire i due
files corrispondenti
 merge
• Se hai raccolto informazioni su altri
soggetti in un secondo momento, puoi
unire i due files corrispondenti
 append
Strutture dei database
• Modelli logici
 Modello
Gerarchico
 Modello Reticolare
 Modello Relazionale
• Modelli concettuali
 Il
modello Entità-Relazione
Strutture dei database
Encyclopedia Britannica, Information processing and information systems, 1994
• Gerarchica
i
record sono organizzati in uno schema simile ad
un albero genealogico, ed i record sono legati uno
all’altro dall’alto verso il basso
 le
relazioni sono mantenute attraverso dei
puntatori (identificatori quali indirizzi o codici
chiave) che sono parte del record
• Reticolare
• Relazionale
Strutture dei database
Encyclopedia Britannica, Information processing and information systems, 1994
• Gerarchica
• Reticolare
i
record sono organizzati in gruppi noti come set
 ogni set può essere collegato agli altri in molti
modi, attraverso puntatori
• Relazionale
Strutture dei database
Encyclopedia Britannica, Information processing and information systems, 1994
• Gerarchica
• Reticolare
• Relazionale
 consiste
in più tabelle bidimensionali (o matrici)
 è semplice, è dotato di basi teoriche (algebra
relazionale), non utilizza i puntatori per mantenere
le relazioni
Il database relazionale
• Tipologie di
database:
relazioni
fra
tabelle
del
 uno
ad uno: per ogni record della Tabella A è
presente uno e un solo record della Tabella B
 uno
a molti: per ogni record della Tabella A
possono essere presenti n record della Tabella B
Il database relazionale
Un esempio di database relazionale:
molti
Anagrafica 1
ID paziente
Cognome
Nome
Sesso
Data di nascita
Luogo di nascita
Luogo di residenza
Ricoveri
ID ricovero
ID paziente
Data ingresso
Data dimissione
Reparto di Dimissione
Diagnosi principalemolti
Procedura principale
DRG
molti
1
Identificativo
primario
1 ICD9CM Diagnosi
Codice diagnosi
Descrizione diagnosi
ICD9CM procedure
Codice procedura
Descrizione procedura
Corso di perfezionamento “Statistica ed informatica per le aziende sanitarie”
Il database relazionale
• Vincoli del sistema relazionale:
molti
Anagrafica 1
ID paziente
Cognome
Nome
Sesso
Data di nascita
Luogo di nascita
Luogo di residenza
Ricoveri
ID ricovero
ID paziente
Data ingresso
Data dimissione
Reparto di Dimissione
Diagnosi principale
Procedura principale
DRG
Quando si inserisce un
record nella tabella
ricoveri che fa
riferimento ad un record
della tabella anagrafica
quest’ultimo record non
può più essere cancellato,
nè può essere modificato
l’ID primario
Modello entità-relazione: alcuni costrutti
principali
• Entità: classi di oggetti che
hanno proprietà comuni ed
esistenza “autonoma” ai
fini dell’indagine
• Relazione:
un
legame
logico, significativo per
l’analisi, tra due o più
entità
Paziente
Esame
Servizio
Modello entità-relazione: alcuni costrutti
principali
• Attributo: Descrive proprietà elementari di
entità o relazioni di interesse ai fini dell’
analisi
 un
attributo
associa
a
ciascuna
occorrenza di entità (studio di una unità
statistica) un valore appartenente ad un
insieme, detto dominio dell’ attributo, che
contiene i valori ammissibili (Modalità)
 può essere semplice o composto
Cognome
CAP
Via
Indirizzo
Paziente
Età
Modello entità-relazione: alcuni costrutti
principali
• Cardinalità delle relazioni: per ciascuna
entità che partecipa alla relazione descrivono
il numero minimo e massimo di occorrenze
di relazione a cui le occorrenze delle entità
coinvolte possono partecipare
 es. Da 3 a 5 chirurghi compongono una
equipe operatoria, che può svolgere in
una giornata da nessuno a 4 interventi
Chirurgo
(3,5)
Equipe
(0,4)
(min,max)
Intervento
Cardinalità di relazioni: tipi principali
Uno a uno
Richiesta
esame
(1,1)
(0,1)
Esecuzione
(0,N)
(1,1)
Uno a molti
Paziente
Residenza
Paziente
Città
(0,N)
(1,N)
Molti a molti
Referto
Ricovero
Ospedali
Unione di archivi di dati
• Se hai raccolto dati sugli stessi soggetti in
misurazioni successive, puoi unire i due
files corrispondenti
Unione di archivi di dati
• Se hai raccolto informazioni su altri
soggetti in un secondo momento, puoi
unire i due files corrispondenti
Architetture di Database
• Modello singolo utente Stand Alone
• Modello multiutente
 Client-server
Il database Stand Alone
Il database risiede
fisicamente sulla
memoria di massa di
un calcolatore e può
essere utilizzato
soltanto da un utente
alla volta e soltanto su
quel calcolatore
Il database Stand Alone
• Vantaggi
 economico
 legato
locale
alla potenza di calcolo del calcolatore
• Limiti
 single-user
Il database multiutente
• Il database risiede sulla memoria di massa di
un calcolatore collegato in rete;
• lo stesso database può essere utilizzato da più
utenti contemporaneamente;
Database
Il database multiutente
• Vantaggi:
 si
può utilizzare il database in contemporanea su più
calcolatori
 la velocità di funzionamento è funzione della potenza
di calcolo dell’elaboratore locale e dell’ampiezza di
banda della rete;
Il database multiutente
• Vincoli:
 il
database deve essere progettato per la
multiutenza
generazione di lock sui record modificati
 tutti gli utenti debbono avere acceso
completo (RW-) ad file del database
rischi per la sicurezza
– cancellazioni involontarie o dolose
– corruzione del file in caso
di crash di un
calcolatore
L’ architettura server-client
• Il database risiede fisicamente sulla memoria di
massa di un calcolatore detto SERVER
• l’unico software che accede fisicamente al
database è il SERVER DI DATABASE
• i calcolatori periferici (CLIENT) non accedono
fisicamente al file, ma interrogano il server, che,
accedendo al file, processa la richiesta e fornisce
la risposta al client
L’ architettura server-client
Server
Database
Richiesta di dati
al server
Client
Accesso fisico
al database
Risposta al client
con invio dei
dati richiesti
L’ architettura server-client
• Vantaggi
 si
può utilizzare il database in contemporanea su
più calcolatori, anche connessi in rete geografica
 l’utente non deve avere accesso (neanche in R--) al
file del database
 i calcolatori client posso avere risorse limitate
 il rischio di corruzione del file è associato al solo
malfunzionamento del server
L’ architettura server-client
• Vincoli
 il
database
deve
essere
specificamente
ingegnerizzato per questa architettura
 la velocità di risposta è funzione:
della banda passante della rete
della potenza dell’elaboratore server
del numero di accessi contemporanei al server
 il fermo macchina del server rende inservibile
tutto il sistema di database
L’ architettura server-client
• Database in
commerciali
 Oracle
architettura
(es. GISS…)
 SQL Server
 Sybase
 Informix
 Mumps
client-server
Esercitazione
• Immagina di raccogliere dati con un
questionario sulle abitudini di vita degli
stessi soggetti in 4 diverse stagioni
dell’anno. I soggetti sono residenti in città
diverse.
 Come
si
può
relazionale?
strutturare
un
database