Anno Accademico 2013/2014 Corso di Laurea Triennale in Scienze Motorie C.I. Analisi dei dati motori e sportivi Modulo: Metodi epidemiologici (per Classe 33: Raccolta ed organizzazione dei dati) Prof. Daniela Anastasi Facoltà di Scienze Motorie Università di Cassino La raccolta dei dati con un questionario Formato finale del questionario • • • • • • • • usare carta resistente usare un formato libro assegnare un numero codice ad ogni questionario assegnare ad ogni domanda un numero progressivo lasciare spazio sufficiente tra i quesiti non spezzare le domande tra due pagine usare caratteri di stampa diversi per le istruzioni, le domande e le relative risposte evidenziare con vari artifici le parti più importanti delle domande Il formato grafico • Nell’elaborazione di un questionario, vanno considerate le esigenze di due persone: La persona che compilerà il questionario Semplicità, chiarezza La persona che elaborerà l’informazione raccolta • La persona che compilerà il questionario ha la precedenza • Le stesse regole di semplicità e chiarezza valgono per: Interviste strutturate Moduli per l’estrazione dei dati Il formato grafico • • • • Lasciare spazio sufficiente tra i quesiti Non spezzare le domande tra due pagine Le domande vanno scritte in grassetto Le categorie di risposte vanno scritte con carattere normale • Le istruzioni vanno scritte in corsivo • Per le domande chiuse la risposta viene fornita ponendo un segno sul codice corrispondente • Per le domande aperte le risposte vanno inserite nello spazio previsto Un esempio di questionario Definizione delle risposte possibili • Le risposte devono essere esaustive e mutuamente esclusive • In alcuni casi la domanda non può essere rivolta • In altri, la domanda è posta, ma la persona non risponde • In altri ancora, la persona risponde “Non so” Variabili categoriche • Evitare l’inserimento di testo • È conveniente utilizzare dei codici numerici per le variabili categoriche Questi codici vanno dell’inserimento dei dati definiti prima Variabili categoriche: risposte Variabili categoriche: domande Variabili categoriche: risposte Variabili numeriche • Evitare di raccogliere informazioni aggregate per le variabili numeriche Per chi risponde è altrettanto agevole indicare l’età piuttosto che scegliere tra una serie di classi d’età pre-definite È ancora meglio raccogliere anno e mese di nascita, così saremo in grado di calcolare agevolmente l’età del rispondente a qualsiasi data Variabili numeriche: risposte Fattori che influenzano la formulazione di un questionario 1. Chi deve compilare il questionario * Autocompilazione * Intervistatori 2. Quanti argomenti “delicati” devono essere affrontati * Argomenti complessi * Argomenti imbarazzanti * Argomenti che possono offendere 3. Quanti soggetti devono essere intervistati 4. Quante variabili devono essere indagate * Lunghezza del questionario 1. Chi deve compilare il questionario Autocompilazione Il soggetto al quale viene questionario potrà: • Segnare caselle • Cerchiare risposte • Scrivere numeri o testo consegnato Intervistatori Agli intervistatori viene in genere richiesto di: • Cerchiare risposte • Scrivere numeri in apposite caselle il 2. Il contenuto Il • • • soggetto che compila il questionario potrà: Seguire istruzioni semplici Saltare gli argomenti “difficili” Non completare il questionario Ma gli intervistatori dovrebbero sempre: • Seguire le istruzioni semplici • Fare le domande “difficili” • Compilare, se possibile, tutte le risposte 3. La numerosità del campione sul quale si esegue l’indagine A. Su piccoli campioni (studi pilota, studi ad hoc) si può prendere in considerazione anche la raccolta di dati che presentano problemi di codifica: * * B. Risposte testuali aperte Risposte multiple (es. “tutti i mestieri che hai fatto nella vita”) Su grandi campioni (studi di popolazione, questionari spediti per via postale) è necessario: * * * Far scegliere tra più opzioni chiuse precodificate Inserire un codice “altro” per le eccezioni Ridurre al massimo i “salti condizionati” (es. se Maschio vai alla domanda X, se Femmina vai alla domanda Y) * Ridurre al massimo il testo Regole da seguire nel formulare domande individuali • Utilizzare differenti caratteri per differenti sezioni di diverse domande es. maiuscolo per la domanda, neretto per le risposte alternative, corsivo per le istruzioni • Aggiungere specifiche istruzioni e suggerimenti (per gli intervistatori) a ciascuna domanda • Usare il formato verticale per la risposta • Pre-codificare tutte le domande a risposta chiusa • Utilizzare sempre lo stesso numero di codice per particolari categorie di risposte • Individuare le risposte alle domande a risposta chiusa circondando il numero di codice o la risposta alternativa • Riservare spazi o caselle per le domande a risposta aperta • Considerare la fruibilità dei formati per l’input su calcolatore ad es. spostare i codici di risposta contro il margine destro della pagina Informazioni da inserire nel foglio introduttivo dei questionari • Struttura della ricerca • Nome dell’ intervistatore (o del direttore dello studio nelle ricerche che utilizzano questionari per posta) • Argomento dello studio • Sponsor • Riservatezza • Anonimato • Scopo della ricerca • Uso dei dati raccolti • Tecnica di campionamento • Lunghezza dello studio • Partecipazione volontaria • Dimensione del campione • Richiesta di consenso Verifica e fasi finali della messa a punto di un questionario • • Correggere la prima bozza del questionario Somministrare il questionario a un campione facilmente accessibile • Fornire le istruzioni per l’uso e addestrare gli intervistatori mediante un test pilota • • • • • Se ci sono dei problemi, vanno risolti in questa fase Testare il questionario su un campione di 20-50 persone rappresentativo della popolazione a cui appartengono i soggetti da esaminare Raccogliere le osservazioni degli intervistatori e degli intervistati, possibilmente per iscritto Correggere le domande che mettono in difficoltà Ripetere il test e rivedere gli eventuali punti critici Elaborare corrette istruzioni e preparare gli intervistatori per l’avvio dello studio • parenti amici, colleghi, voi stessi Se emergono altri problemi effettuare un’ulteriore revisione. Seguire attentamente le prime fasi dello studio ed esser pronti a ulteriori modifiche, se necessario Struttura di un archivio dei dati Concetti di base • Unità statistica Minima unità da cui si raccolgono i dati in una indagine Individuo Famiglia Regione Squadra Gara • Variabile Caratteristica che può assumere valori diversi nelle diverse unità statistiche Altezza dei bambini di una classe Peso degli atleti Età dei pazienti di una clinica Concetti di base • Modalità Valore assunto da una determinata unità statistica Individuo Peso Giorgio 80 kg Mario 75 kg Roberto 77 kg variabile Modalità in una Tipo di variabili • Le variabili si possono distinguere in due gruppi Variabili numeriche Discrete: es. n° figli, n° volte/die Continue: es. peso, altezza, … Variabili categoriche Binomiali: es. genere Nominali: es. tipo di sport, etnia Ordinali: gravità del sintomo, titolo di studio Organizzazione dei dati • I dati raccolti in uno studio devono essere organizzati in maniera razionale • Ogni riga rappresenta un’unità statistica •È importante avere un codice identificativo univoco per ogni osservazione (variabile id) Organizzazione dei dati • Ogni colonna riporta i diversi valori di una variabile Uso di un codice identificativo • Il codice identificativo è la “chiave” che permette di collegare le informazioni raccolte con i dati personali dell’individuo • È univoco, ovvero ne esiste solo uno per ogni soggetto • Il codice identificativo deve essere inserito sia sul modulo di raccolta dati (es. sulla prima pagina del questionario) che nell’archivio dei dati Privacy • Legge sulla privacy 196/2003 • I dati sanitari sono dati “sensibili” • Bisogna adoperare delle precauzioni per evitare di diffondere queste informazioni • È conveniente utilizzare un codice identificativo univoco, che non ha nessun significato al di fuori del progetto di lavoro • Una volta assegnato il codice identificativo i dati personali possono essere rimossi e conservati separatamente La legenda • La legenda è il collegamento tra il questionario ed i dati inseriti nel computer • Durante l’analisi dei dati le variabili vengono richiamate per nome Devono avere un nome breve Se le variabili registrate sono poche è meglio usare un nome che aiuti nel ricordare la variabile Se le variabili registrate sono molte (es. un questionario con centinaia di domande) è meglio usare nomi che derivano dal numero delle domande nel questionario (q1, q2, q3, …) La legenda Etichette delle variabili • Alcuni software statistici consentono l’impiego di etichette per le variabili storage display value variable name type format label variable label -----------------------------------------------------------------idnum int %3.0f cod. identificativo datanas long %d data di nascita artodom byte %1.0f lbl arto dominante Etichette dei valori • Alcuni software statistici consentono l’impiego di etichette dei valori nel caso di variabili categoriche . tabulate artodom, nolabel arto | dominante | Freq. Percent Cum. ------------+----------------------------------1 | 305 84.49 84.49 2 | 47 13.02 97.51 3 | 9 2.49 100.00 ------------+----------------------------------Total | 361 100.00 Etichette dei valori • Alcuni software statistici consentono l’impiego di etichette dei valori nel caso di variabili categoriche . tabulate artodom arto | dominante | Freq. Percent Cum. ------------+----------------------------------destro | 305 84.49 84.49 sinistro | 47 13.02 97.51 ambidestro | 9 2.49 100.00 ------------+----------------------------------Total | 361 100.00 La gestione dei dati Problemi nella gestione dei dati • Quando si raccolgono, utilizzano e conservano dei dati, si possono verificare: Errori Perdita di tempo Perdita di informazioni Inserimento dei dati • Per piccoli set di dati, si possono inserire i dati raccolti in un foglio di lavoro di Excel, ma, con grandi dataset, questo sistema diventa complesso e suscettibile di errori Inserimento dei dati • È meglio usare un programma di “Data-entry” • Prima di inserire i dati va definita la legenda • Una frequente forma di errore è che la risposta giusta viene registrata nella domanda sbagliata La risposta sull’arrossamento “dietro le ginocchia” viene registrata nel campo “sulle caviglie” • Non inserire i dati tutti insieme • Inserire i dati due volte Correggere poi gli errori in entrambi gli archivi • Una volta scoperto un errore, controllare i valori vicini IL DATA ENTRY: Obiettivi • Ottenere archivi che trattabili con facilità: contengano dati numeri categorie numerate date • Importare i dati da un formato compatibile con il package statistico a disposizione: da formati di altri pacchetti statistici da files di database dai quali possono ereditati i nomi dei caratteri statistici e le relative proprietà da testo ASCII Creazione di variabili derivate • E’ opportuno evitare di fare calcoli prima del data-entry • Potremo in seguito costruire delle nuove variabili a partire dai dati elementari registrati nel questionario Indice di massa corporea, es.: Un bambino di 10 anni, Peso=43 kg Altezza=1,43 m IMC = 43 kg (1,43 m)2 = 21 kg/m2 DATA ENTRY Requisiti di un buon programma dedicato (1) • Riprodurre la scheda di inserimento informatica in modo simile alla scheda cartacea; • Permettere la visualizzazione sullo schermo di domande e risposte; • Offrire un aiuto su schermo; • Applicare dei check sulle variabili in entrata; • Applicare dei salti condizionati (p.e: i maschi saltano domande specifiche per le donne) DATA ENTRY Requisiti di un buon programma dedicato (2) • Controllare il rendimento del data entry; • Ridurre i costi di stampa e di accumulo di carta; • Applicare delle regole definite per la codifica dei dati missing • Essere “failure safe” (archiviare ogni record inserito su disco) DATA ENTRY: Metodo 1 - Il doppio Input • I dati sono introdotti da due diversi staff separatamente. E’ possibile evidenziare le differenze e correggerle • L’input dei dati può essere effettuato da personale non specializzato; E’ un metodo veloce I dati rispecchiano esattamente la copia cartacea E’ il “golden standard” per i dati testuali, dove non è possibile altra validazione Se la versione cartacea è errata, la copia informatica è errata E’ necessario il doppio del personale DATA ENTRY: Metodo 2 - Check automatico in inserimento • Un apposito programma costruito per questa fase si occupa di effettuare numerosi controlli di congruità sui dati all’ atto del loro inserimento; • L’input dei dati può essere svolto da personale di segreteria; • Viene usato nei dipartimenti governativi anglosassoni I dati vengono “puliti” al momento e sono inseriti nell’ archivio Si richiede un supervisore per correggere errori o risposte non previste in anticipo Richiede una attività di programmazione complessa e strutturata DATA ENTRY: Metodo 3 - Controllo dati ad inserimento avvenuto • Il programma di data entry effettua pochi controlli di congruità; • L’input dei dati viene svolto da una persona appositamente pagata: che capisce i dati, e quindi si accorge dei dati errati o “strani” • E’ utilizzato negli studi epidemiologici Non serve personale di segreteria Il programma di data entry è semplice da approntare I dati vanno controllati prima dell’analisi In caso di risposte non previste, questo sistema si presta ad interpretazioni “estemporanee” da parte di chi realizza questa fase DATA ENTRY: Metodo 4 - Formati a riconoscimento ottico • Le risposte sono segnate su un formato a griglia, predisposto per la lettura automatica con uno scanner; • E’ richiesto personale che verifichi il funzionamento in acquisizione del calcolatore; • E’ utilizzato per la richiesta di esami di laboratorio Non c’ è data entry manuale Sono spesso necessarie molte correzioni Ci sono limitazioni sul tipo di dati acquisibili (difficile acquisizione per i dati testuali) I compilatori della scheda prestampata devono essere motivati E’ un metodo costoso DATA ENTRY: Metodo 5 - Interviste guidate dal computer • Le risposte al questionario vengono digitate nel computer durante l’intervista; • E’ utilizzato da intervistatori pagati ad intervista; • E’ utilizzato per ricerche di mercato Data entry e validazione possono essere contestuali E’ possibile strutturare il questionario in modo complesso Permette un campionamento all’interno dell’intervista Rafforza i codici validi Permette il controllo della resa dell’intervistatore Non esiste una copia cartacea Non possono essere inseriti commenti non previsti E’ un metodo costoso La programmazione sul computer può essere molto complessa VALIDAZIONE DEI DATI • L’ obiettivo del processo di validazione iniziale dei dati raccolti e’ di effettuare controlli su: gli errori di digitazione; le risposte che potrebbero essere errate; gli errori sistematici legati agli intervistatori; gli errori di progettazione o di programmazione; • L’ azione di revisione dei dati nel dettaglio può essere svolta direttamente se le unità statistiche rilevate sono poco numerose, mentre per la revisione dei dati di campioni più numerosi è necessario un programma computerizzato; VALIDAZIONE DEI DATI Gli Errori • Per ogni domanda, il dato archiviato deve avere di lunghezza inferiore o pari alla massima consentita; appartenere al tipo previsto essere coerente con le proprietà del dato; appartenere ad una delle categorie predefinite o essere contenuto all’interno di un range di valori possibili; sempre presente, se definito come indispensabile; • Nella stessa intervista, una risposta dovrebbe essere coerente con le precedenti domande; compilata solo se coerente con il “pattern di scavalcamento” definito; • Tra diverse interviste, le risposte dovrebbero essere coerenti con le risposte precedenti; VALIDAZIONE DEI DATI Le “tracce sospette” •Dobbiamo sospettare un raccolta o di data entry se: la risposta è: errore nella troppo arrotondata o vicina ai limiti min o max manca senza un preciso motivo le risposte della stessa intervista: seguono un pattern preciso – sono messe in serie, senza leggerle? non seguono alcun pattern – sono messe a caso? sono troppo perfette – sono indotte dall’intervistatore – sono “aggiustate” ad arte? fase di Dati “DIFFICILI” • Quali dati ci danno problemi? Testi liberi Definire categorie a cui riportare ogni risposta – questa fase può essere svolta a mano o con l’ ausilio di programmi al calcolatore Dati mancanti o non accettabili: possibili strategie Omettere dall’ analisi i dati mancanti Considerare “mancante” come una categoria a parte Ricostruire valori da attribuire Attribuire ai dati mancanti il valore minimo prima e massimo poi e svolgere due analisi separate In ogni caso è importante sempre documentare le strategie scelte nella gestione dei testi liberi e dei dati “missing” Dati mancanti o non accettabili Metodo 1 - Ometterli • Assunto di base: il dato viene considerato superfluo, privo di potenziale informativo • Vantaggi soluzione rapida e facile; • Svantaggi non si usano tutti i dati; si introduce un errore se l’assenza non è casuale; non si cerca di spiegare il perchè dei dati mancanti; incoraggia le estrapolazioni indebite; gli intervalli di confidenza si allargano se il dato mancante è frequente perchè è ridotto il numero considerate nel calcolo delle unità statistiche Dati mancanti o non accettabili Metodo 2 - Il dato “mancante” è una categoria • Assunto di base: il dato non è superfluo, se manca c’ è un motivo rilevante • Vantaggi soluzione rapida e facile; si cerca di spiegare il perchè delle non compilazioni; si usano tutti i dati raccolti; • Svantaggi non si possono applicare tutte le tecniche statistiche; crea grossi problemi nel calcolo di score complessivi; Dati mancanti o non accettabili Metodo 3 - Ricostruire valori da attribuire • Assunto di base: è possibile stimare i dati mancanti sulla base di un modello logico o matematico • Il rischio di giungere a stime sbagliate è diverso se si fa riferimento a: plausibilità logica ; risposte su altre domande di argomento affine o analogo; interdipendenza tra le risposte; modello presupposto: probabilità condizionata a risposte note indici di tendenza centrale; modello presupposto: costanza tra più compilatori Dati mancanti o non accettabili Metodo 3 - Ricostruire valori da attribuire • Vantaggi si cerca di spiegare il perchè delle non compilazioni; si usano tutti i dati raccolti; permette di applicare metodi statistici complessi utilizzando tutte le unità statistiche; Svantaggi nasconde il valore mancante iniziale introduce errore se il dato mancava non per caso perchè si è assimilato quel soggetto agli altri è necessario realizzare calcoli complessi scoraggia lo studio dei motivi alla base delle non compilazioni Dati mancanti o non accettabili Metodo 4 - L’ analisi di “scenario” • Assunto di base il valore non è più estremo di quelli rilevati in altri soggetti • Metodo si costruiscono due set di dati, nei quali vengono attribuiti: nel primo a tutti i mancanti il valore minimo rilevato; nel secondo a tutti i mancanti il valore massimo rilevato; si studiano separatemente i due set di dati (“scenari”); le conclusioni vere si presuppone staranno nel mezzo; • Vantaggi permette di applicare metodi statistici complessi utilizzando tutte le unità statistiche; • Svantaggi doppia elaborazione necessaria; risultati molto dispersi se il range min-max dei valori noti è ampio; Documentare i passi svolti • E’ fondamentale scrivere un documento che testimoni i principali passaggi svolti nel processo: la raccolta dei dati; il metodo di inserimento utilizzato; la qualità dell’inserimento validazione); quantità e qualità dei dati missing; gestione dei dati missing e dei dati testuali; descrizione dei files utilizzati nel processo (nomi, tipo, date e dimensione); backup; (errori trovati nella Back-up ed archiviazione • Obiettivo del back up è quello di essere in grado di recuperare i dati ed i documenti in caso di distruzione o perdita di dati È un’attività da svolgere di routine • L’archiviazione ha luogo una o poche volte nell’arco della vita di un progetto Ricerca degli errori • Fai una stampa di: Legenda Elenco delle variabili Tabelle di frequenza delle variabili • Confronta la legenda originale con quella derivata dai dati inseriti • Osserva le tabelle per evidenziare valori improbabili, massimo e minimo • Osserva il numero delle osservazioni • Osserva se sono presenti dati incoerenti Maschi in gravidanza Ricerca degli errori • Una volta identificati valori sospetti, elenca i dati con il corrispondente id e controlla se sono corretti • Se ci sono dati incoerenti (maschi in gravidanza) Ricodifica i valori a valori mancanti • Se ci sono dati mancanti A volte puoi dedurre questi valori da altre informazioni per lo stesso soggetto (data imput) Es. donna, con tre figli di 19, 6 e 1 anno – Età?? Unione di archivi di dati • Se hai raccolto dati sugli stessi soggetti in misurazioni successive, puoi unire i due files corrispondenti merge • Se hai raccolto informazioni su altri soggetti in un secondo momento, puoi unire i due files corrispondenti append Strutture dei database • Modelli logici Modello Gerarchico Modello Reticolare Modello Relazionale • Modelli concettuali Il modello Entità-Relazione Strutture dei database Encyclopedia Britannica, Information processing and information systems, 1994 • Gerarchica i record sono organizzati in uno schema simile ad un albero genealogico, ed i record sono legati uno all’altro dall’alto verso il basso le relazioni sono mantenute attraverso dei puntatori (identificatori quali indirizzi o codici chiave) che sono parte del record • Reticolare • Relazionale Strutture dei database Encyclopedia Britannica, Information processing and information systems, 1994 • Gerarchica • Reticolare i record sono organizzati in gruppi noti come set ogni set può essere collegato agli altri in molti modi, attraverso puntatori • Relazionale Strutture dei database Encyclopedia Britannica, Information processing and information systems, 1994 • Gerarchica • Reticolare • Relazionale consiste in più tabelle bidimensionali (o matrici) è semplice, è dotato di basi teoriche (algebra relazionale), non utilizza i puntatori per mantenere le relazioni Il database relazionale • Tipologie di database: relazioni fra tabelle del uno ad uno: per ogni record della Tabella A è presente uno e un solo record della Tabella B uno a molti: per ogni record della Tabella A possono essere presenti n record della Tabella B Il database relazionale Un esempio di database relazionale: molti Anagrafica 1 ID paziente Cognome Nome Sesso Data di nascita Luogo di nascita Luogo di residenza Ricoveri ID ricovero ID paziente Data ingresso Data dimissione Reparto di Dimissione Diagnosi principalemolti Procedura principale DRG molti 1 Identificativo primario 1 ICD9CM Diagnosi Codice diagnosi Descrizione diagnosi ICD9CM procedure Codice procedura Descrizione procedura Corso di perfezionamento “Statistica ed informatica per le aziende sanitarie” Il database relazionale • Vincoli del sistema relazionale: molti Anagrafica 1 ID paziente Cognome Nome Sesso Data di nascita Luogo di nascita Luogo di residenza Ricoveri ID ricovero ID paziente Data ingresso Data dimissione Reparto di Dimissione Diagnosi principale Procedura principale DRG Quando si inserisce un record nella tabella ricoveri che fa riferimento ad un record della tabella anagrafica quest’ultimo record non può più essere cancellato, nè può essere modificato l’ID primario Modello entità-relazione: alcuni costrutti principali • Entità: classi di oggetti che hanno proprietà comuni ed esistenza “autonoma” ai fini dell’indagine • Relazione: un legame logico, significativo per l’analisi, tra due o più entità Paziente Esame Servizio Modello entità-relazione: alcuni costrutti principali • Attributo: Descrive proprietà elementari di entità o relazioni di interesse ai fini dell’ analisi un attributo associa a ciascuna occorrenza di entità (studio di una unità statistica) un valore appartenente ad un insieme, detto dominio dell’ attributo, che contiene i valori ammissibili (Modalità) può essere semplice o composto Cognome CAP Indirizzo Via Paziente Età Modello entità-relazione: alcuni costrutti principali • Cardinalità delle relazioni: per ciascuna entità che partecipa alla relazione descrivono il numero minimo e massimo di occorrenze di relazione a cui le occorrenze delle entità coinvolte possono partecipare es. Da 3 a 5 chirurghi compongono una equipe operatoria, che può svolgere in una giornata da nessuno a 4 interventi (3,5) Chirurgo (min,max) (0,4) Equipe Intervento Cardinalità di relazioni: tipi principali Uno a uno Richiesta esame (1,1) (0,1) Esecuzione (0,N) (1,1) Uno a molti Paziente Residenza Paziente Città (0,N) (1,N) Molti a molti Referto Ricovero Ospedali Unione di archivi di dati • Se hai raccolto dati sugli stessi soggetti in misurazioni successive, puoi unire i due files corrispondenti Unione di archivi di dati • Se hai raccolto informazioni su altri soggetti in un secondo momento, puoi unire i due files corrispondenti Architetture di Database • Modello singolo utente Stand Alone • Modello multiutente Client-server Il database Stand Alone Il database risiede fisicamente sulla memoria di massa di un calcolatore e può essere utilizzato soltanto da un utente alla volta e soltanto su quel calcolatore Il database Stand Alone • Vantaggi economico legato alla potenza di calcolo del calcolatore locale • Limiti single-user Il database multiutente • Il database risiede sulla memoria di massa di un calcolatore collegato in rete; • lo stesso database può essere utilizzato da più utenti contemporaneamente; Database Il database multiutente • Vantaggi: si può utilizzare il database in contemporanea su più calcolatori la velocità di funzionamento è funzione della potenza di calcolo dell’elaboratore locale e dell’ampiezza di banda della rete; Il database multiutente • Vincoli: il database deve essere progettato per la multiutenza generazione di lock sui record modificati tutti gli utenti debbono avere acceso completo (RW-) ad file del database rischi per la sicurezza – cancellazioni involontarie o dolose – corruzione del file in caso di crash di un calcolatore L’ architettura server-client • Il database risiede fisicamente sulla memoria di massa di un calcolatore detto SERVER • l’unico software che accede fisicamente al database è il SERVER DI DATABASE • i calcolatori periferici (CLIENT) non accedono fisicamente al file, ma interrogano il server, che, accedendo al file, processa la richiesta e fornisce la risposta al client L’ architettura server-client Server Database Richiesta di dati al server Client Accesso fisico al database Risposta al client con invio dei dati richiesti L’ architettura server-client • Vantaggi si può utilizzare il database in contemporanea su più calcolatori, anche connessi in rete geografica l’utente non deve avere accesso (neanche in R--) al file del database i calcolatori client posso avere risorse limitate il rischio di corruzione del file è associato al solo malfunzionamento del server L’ architettura server-client • Vincoli il database deve essere specificamente ingegnerizzato per questa architettura la velocità di risposta è funzione: della banda passante della rete della potenza dell’elaboratore server del numero di accessi contemporanei al server il fermo macchina del server rende inservibile tutto il sistema di database L’ architettura server-client • Database in commerciali architettura (es. GISS…) SQL Server Sybase Informix Mumps Oracle client-server Esercitazione • Immagina di raccogliere dati con un questionario sulle abitudini di vita degli stessi soggetti in 4 diverse stagioni dell’anno. I soggetti sono residenti in città diverse. Come si può relazionale? strutturare un database