Lezione 1- Introduzione Cattedra di Biostatistica – Dipartimento di Scienze sperimentali e cliniche, Università degli Studi “G. d’Annunzio” di Chieti – Pescara Prof. Enzo Ballone Statistica medica e Biometria La statistica medica insegna come occorre osservare la realtà, come raccogliere i dati, con quali strumenti, su chi, su quanti, etc. La Biometria (vita + misura): studia i fenomeni della vita, in particolare di quelli sanitari (che attengono alla salute degli uomini) Statistica medica-Biostatistica - - Trattano dei metodi statistici per lo studio statistico dei fenomeni biologici: dei metodi e degli strumenti statistici che vengono impiegati nelle Scienze biologiche Dell’analisi dei dati e delle informazioni ottenuti dalla Scienza Medicina: dalla prevenzione, diagnosi, terapia, prognosi e riabilitazione 1 La statistica. l’insieme delle metodologie che hanno come scopo la conoscenza quantitativa di fenomeni collettivi. L’analisi statistica mira ad individuare modelli di interpretazione della realtà, attraverso canoni e tecniche che sono astrazioni, semplificazioni di una moltitudine di aspetti e di manifestazioni del reale. Nell’analisi statistica si può individuare una: FUNZIONE DESCRITTIVA, in quanto offre il metodo per riassumere le informazioni in modo da renderle utilizzabili più facilmente. Riduce i dati in forma maneggevole, sostituendo a molti numeri poche misure. FUNZIONE INFERENZIALE (o induttiva), in quanto permette di generalizzare le informazioni, ricavando proprietà e leggi generali sulla base di dati rilevati solamente su una parte (campione) della popolazione VARIABILI STATISTICHE VARIABILI QUALITATIVE NOMINALI Date due qualsiasi modalità, è possibile solo affermare se esse sono uguali o diverse. Sesso; professione; diagnosi medica; … ORDINALI O PER RANGHI Esiste un criterio predeterminato per ordinare le modalità ordine di nascita; giorni della settimana; indice di severità di una malattia;… VARIABILI QUANTITATIVE DISCRETO L’insieme delle modalità assumibili può essere messo in “corrisp. biunivoca” con un sottoinsieme dei numeri naturali. Num. componenti famiglia; num. di figli; num. di denti; num. colonie batteriche in una piastra;… CONTINUO (la variabile può assumere qualsiasi valore all’interno di intervalli di numeri reali. statura; peso; glicemia; PAS;… 2 Esempio 1: Su un campione di pazienti si rilevino, ad esempio, le caratteristiche: sesso, età, altezza, peso, PAS, tasso glicemico. ecc. Questi dati vengono registrati sul materiale cartaceo e/o informatico in quest’ultimo caso danni vita ad un file data Esempio 1: nome: Rossi Carlo Nome: Bianchi Paolo sesso: maschio Sesso: maschio età: 32 Età: 47 altezza: 172 cm. Altezza: 170 cm. peso: 64 Kg. Peso: 80 Kg. PAS: 140 mm Hg. PAS: 148 mm Hg. Glicemia: 190 mg/100cc Glicemia: 180 mg/100cc Esempio 1: nome: Valenzi Anna Sesso: femmina età: 45 Altezza: 168 cm. Peso: 51 Kg. PAS: 125 mm Hg. Glicemia: 150 mg/100cc nome: Alinori Alfonso sesso: maschio età: 27 Altezza: 183 cm. Peso: 85 Kg. PAS: 138 mm Hg. Glicemia: 170 mg/100cc 3 Organizzazione delle informazioni: Le informazioni raccolte per essere "trattate" da un computer devono essere organizzate in strutture chiamate comunemente Data Base o File Dati. Le informazioni vengono, comunemente, organizzate per riga, consecutivamente, vengono elencati i dati relativi ad un soggetto. N. NOME SESSO ETA' ALTEZZA PESO PAS GLIC. 1 Rossi Carlo M 32 172 64 140 190 2 Bianchi Paolo M 47 170 80 148 180 3 Valenzi Anna F 45 168 51 125 150 4 Alinori Alfonso M 27 183 85 130 170 5 6 Glossario: POPOLAZIONE: l’insieme di tutte le unità statistiche oggetto dell’osservazione (es.: medici, paramedici, studenti, diabetici, obesi, addetti all’agricoltura…). CAMPIONE: la parte delle unità statistiche sottoposte all’osservazione, all’esperimento, etc. UNITA’ STATISTICA: per ogni elemento o caso appartenente alla popolazione oggetto diretto della osservazione da cui si raccolgono i dati. 4 Glossario: CARATTERE (O VARIABILE): la caratteristica (attributo o misura) osservata sulla unità statistica. MODALITA’: ogni diversa presentazione del carattere o variabile osservata su ciascuna unità statistica. FREQUENZA: numero di volte che si presenta una data modalità. Esempio 2: Alcune distribuzioni semplici di frequenze. Sesso f.a. Età f.a. Altezza f.a. M 2 17 3 150-160 2 F 10 18 6 161-170 10 Tot 12 19 12 171-180 15 20 1 181-190 7 Tot 22 >190 1 Tot 35 Esempio 3: Distribuzione doppia di frequenze assolute Gruppo A Gruppo B Sesso frequ. assolute frequ. assolute M 12 7 F 16 10 Totale 28 17 5 Attenzione: Ci accorgiamo che il confronto non può essere effettuato solo con le f.a. in quanto esse si riferiscono a collettivi di numerosità diversa. Frequenze percentuali: Se vogliamo confrontare le frequenze le dobbiamo “depurare” dalla numerosità del collettivo; ciò lo si fa dividendo le f.a. per la numerosità (N) del Campione e moltiplicando per 100 (cioè facendo riferimento ad una ipotetica popolazione di 100 unità). Le frequenze così calcolate sono le frequenze percentuali (f.%) Distribuzioni a 2 caratteri quantitativi: Quando interessa esaminare simultaneamente 2 caratteristiche degli individui di una stessa popolazione, per stabilire se esiste una qualche relazione tra l’una e l’altra. Es. negli adulti si cerca la relazione tra PAS ed età, e peso, e n. sigarette fumate, etc 6 Esempio 3’: Distribuzione doppia di frequenze percentuali Gruppo A Gruppo B Sesso f.a. f.% f.a. f.% M 12 42.9 7 41.2 F 16 57.1 10 58.8 Totale 28 100 17 100 Esempio 4: Distribuzione di frequenze assolute, relative e cumulate Età f.a. f.% f.a.cum f%cum 17 3 13.6 3 13.6 18 6 27.3 9 40.9 19 12 54.6 21 95.5 20 1 4.5 22 100 Totale 22 100 I grafici statistici. Scopo dei grafici è quello di rendere l’informazione contenuta in una serie di dati: di più facile comprensione; di più diretta lettura. Pertanto un grafico deve fornire al lettore una informazione sintetica e facile da interpretarsi. 7 Diagrammi cartesiani. diagramma cartesiano 3 A 2 B 1 0 -4 Y Grafici che hanno come riferimento un sistema di assi cartesiani con asse orizzontale x (ascissa) ed asse verticale y (ordinata). Ogni punto viene identificato da una coppia ordinata di valori (x, y ). -2 -1 0 2 4 6 -2 -3 -4 C -5 X Diagrammi a bastoncino. Indicati per variabili qualitative, evidenziano con la lunghezza del segmento le frequenze delle modalità della variabile. Studenti 7 6 5 4 Studenti 3 2 1 0 200 400 600 800 1000 Ortogrammi. Usati più frequentemente dei precedenti e si ottengono sostituendo ai bastoncini delle barre Ricorso al pronto soccorso pediatrico per tipo di incidente F r. ass. 1500 1000 500 0 Caduta Ustione Ferita Tipo di incidente Avvel. Altro 8 Istogrammi. Indicati per rappresentare distribuzioni in classi (variabili quantitative continue). Costituiti da una serie di barre rettangolari contigue ognuna in rappresentanza di una classe e con area proporzionata alla rispettiva frequenza. Valori pressori (PAS) rilevati su un campione di 50 pz. 28 30 24 25 Fr.% 20 16 14 15 10 6 8 4 5 0 100 -110 110 -120 120 -130 130 -140 140 -150 PAS (mm Hg) 150 -160 160 -170 Poligoni e curve di frequenza. Si ottengono dai precedenti unendo i valori centrali superiori delle classi. Valori pressori (PAS) rilevati su un campione di 50 pz. 30 Fr.% 25 20 15 10 5 0 100 -110 110 -120 120 -130 130 -140 140 -150 150 -160 160 -170 (PAS mmHg) Grafici per punti. Costituito dai punti corrispondenti alle diverse coppie di valori rilevati nelle u.s. di una stessa Pop. Indicati per evidenziare le correlazioni o concordanze (+, -, indifferenza) tra variabili quantitative. Distribuz ione della statura e del peso in un campione sperimentale di maschi 80 Peso (Kg) 75 70 65 60 55 50 160 165 170 175 180 185 S ta tura (cm ) 9 Grafici per spezzate. Si ottengono dai grafici per punti congiungendo i vari punti. Indicati per evidenziare una continuità tra valori come ad es. nella rappresentazione delle serie temporali. Temperatura corporea di un ricoverato in due giornate consecutive temperatura 39 38 37 36 35 8 12 16 20 8 12 16 20 Ora Diagrammi a settori circolari (torte). Indicati per variabili qualitative allo scopo di evidenziare le frequenze % delle singole modalità. L’area di un cerchio viene suddivisa in settori proporzionali alle frequenze % Morti per grandi gruppi di cause in Italia (anno 1994) (Fonte: Compendio Statistico Italiano 1998 - ISTAT) Altre 14% App.Diger. 5% Tumori 28% App. Resp. 6% Dist. psich. 3% Sist. Circ. 44% 10