Università degli Studi di Pisa Facoltà di Scienze matematiche fisiche e naturali Anno Accademico 2011-12 Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 1 10-Ottobre-2011 Luigi Marangi Biostatistica : Statistica applicata alla ricerca biologica • Testo di riferimento: Metodi Statistici per la Sperimentazione Biologica A.Camussi,F.Moller, E.Ottaviano,M.Sari Gorla Zanichelli Editore Biostatistica : Statistica applicata alla ricerca biologica • Calcoli elementari possono esser svolti con normale foglio elettronico(p.e. excel) • Software di Calcolo(dedicato alla Statistica): The R Project for Statistical Computing http://www.r-project.org/ Biostatistica : Statistica applicata alla ricerca biologica • • • • • • • • Programma del corso Statistica descrittiva (Cap.1) Nozioni del calcolo delle probabilità(Cap. 2 ) Campionamento Stima di parametri di distribuzioni Test delle ipotesi Analisi della varianza Il modello di regressione lineare Dati Categoriali Biostatistica : Statistica applicata alla ricerca biologica Orari Lezioni: • Lunedi 16.00-18.00 Aula D4 Polo Fibonacci(Lezione Frontale) • Giovedi 09.00-11.00 Aula D4 Polo Fibonacci(Lezione Frontale) • Venerdi 14.00- 18.00 Aula H-Lab Polo Fibonacci(Esercitazione) Ricevimento studenti: da definire Progetto di ricerca :Varicella • Infezione causata dal virus “VZ”, famiglia degli herpes virus 3 (HHV-3). • Prevalentemente “dell’infanzia”. • Trasmissione per contatti diretti con soggetti infettivi. • Durata fase infettiva circa 7 giorni. • Immunità permanente dopo la guarigione. • Il virus resta però latente nel corpo e, quando il grado di immunocompetenza inizia a declinare con l’età, può riattivarsi “endogenamente” causando l'herpes zoster (“fuoco di Sant'Antonio”). Progetto di ricerca :Dati sierologici Varicella in Italia: •campione sierologico ESEN 2 (2004) •n=2446 individui, •stratificato per classi d’età annuali DATI SIEROLOGICI IN CLASSI ANNUALI 1 0.9 PROFILI DI SEROPREVALENZA • Dato più comune per infezioni con immunità permanente (es. morbillo, varicella, parotite). • Dato “current-status”: osserva lo stato immunologico corrente dell’individuo campionato (mediante esame della titolazione anticorpale IgG nel sangue) • VA dicotomica (0=suscettibile all’infezione,1=immune, come conseguenza di passata infezione). • Campione sierologico: campione cross-sezionale che stima la prevalenza di immuni per classi di età nella popolazione al tempo t. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 10 20 30 40 ETA IN CLASSI ANNUALI 50 60 Introduzione 1: Diagnosi Medica e Logica Statistica Paziente = Unità di osservazione Rilevamento dati Temperatura corporea = dato quantitativo Presenza/Assenza di una certa sintomatologia = dato qualitativo Confronto con valori normali o patologici (parametri di popolazione) Relazione con altre caratteristiche rilevate sullo stesso soggetto Diagnosi sullo stato di salute del paziente (Decisione) • Altri esempi Effetto del fumo sull’incidenza dei tumori polmonari Efficacia di un certo dentifricio per la prevenzione della carie Guarigione del raffreddore ottenuta con l’impiego di un certo prodotto farmaceutico Introduzione 2:Considerazioni Analisi non rigorose →Affermazioni fuorvianti Affermazione 1: “Il prodotto X è particolarmente efficace contro il raffreddore: su 100 pazienti trattati,ben 95 hanno mostrato completa remissione della malattia dopo una settimana di cura” Osservazione: L’affermazione è poco v erificabile dato che ,dopo una settimana il raffreddore passa comunemente anche senza nessun trattamento! Affermazione 2 : “Il 75% degli intervistati ha dichiarato di essere favorevole ad un certo partito politico” Osservazione: Il risultato non è attendibile se la numerosità del campione è piccola rispetto alla popolazione degli aventi diritto al voto ed inoltre non sappiamo nulla sulla composizione del campione (è rappresentativo dell’intera popolazione?) Introduzione 3:Biometria - Metodologia Statistica • • • Definizione del problema Formulazione ipotesi precisa Organizzazione dell’esperimento adatto a verificarla Il rilevamento deve essere basato su criteri precisi • Analisi dei dati ottenuti I dati grezzi devono essere sintetizzati per poter essere interpretati • Valutazione Errore Sperimentale :insieme delle variazioni dovute a fattori non controllati Gli effetti dell’errore sperimentale si sovrappongono a quello del fattore di studio Esempio - Studio dell’efficacia di un nuovo farmaco •L’effetto misurato sul singolo soggetto dipende non soltanto dalle caratteristiche del principio attivo impiegato ,ma anche dalle condizioni del paziente in termini di età ,stadio della malattia,malattie pregresse, modalità di somministrazione (fattori di disturbo) . •Disegno sperimentale adeguato: valutazione dell’efficacia del farmaco,indipendentemente da tutti gli altri fattori. Introduzione 4:Branche della statisitica • Statistica descrittiva: Insieme delle tecniche per: la rappresentazione grafica dei dati , la sintesi dei dati grezzi in pochi numeri-indice particolarmente informativi,per esempio una media aritmetica o una mediana (spesso è la base per condurre un’analisi inferenziale) • Statistica inferenziale : Insieme delle tecniche per definire le caratteristiche di una popolazione ,della quale non si può avere una conoscenza esaustiva ,attraverso lo studio di un campione da essa estratto. Esempio: Efficacia di un farmaco ipotensivo Il farmaco è somministrato ad un campione di soggetti ipertesi : viene misurato la variazione della pressione arteriosa dopo il trattamento . La descrizione accurata delle caratteristiche del campione porta a delle conclusioni che possono essere applicate ad altri soggetti (popolazione costituita da tutti i soggetti ipertesi),anche se essi non potranno essere singolarmente studiati Considerazioni : Il capionamento è necessario(elevato costo) Campione di controllo a cui è somministrato ‘Placebo’ (Disegno sperimentale CasoControllo) Statistica Descrittiva 1:Insieme e Variabile • Descrizione dei fenomeni quantitativi e qualitativi osservati • Insieme (‘Popolazione’): collezione di qualsiasi tipo di oggetti,individui,animali,piante,fenomeni che presentano almeno una caratteristica comune (Biologia): gli elementi di una categoria tassonomica ,una specie ,un genere . (Medicina): gruppi di sintomi che costituiscono una sindrome o i pazienti ricoverati in un reparto ospedaliero. Statistica Descrittiva 2:Insieme e Variabile • Variabile : entità logica,caratteristica che può assumere diversi valori,i quali costituiscono quindi un insieme • Variabile qualitativa: la caratteristica varia qualitativamente secondo le modalità con cui può presentarsi: Colore del mantello di un animale, Forma della foglia di una pianta • Variabile quantitativa : la caratteristica è misurabile in termini quantitativi . Discreta se assume valori isolati; numero di ammissioni giornaliere in un ospedale; numero di colonie batteriche su una piastra Continua se assume tutti i possibili valori reali in un certo intervallo ; – Peso, Taglia degli individui di una colonia di foche ; – Età degli individui di una popolazione. – Temperatura. Un po’ di esempi • Gruppi sanguigni in un gruppo di individui di razza caucasica. • Valutazione della risposta all’applicazione di un farmaco ad n pazienti. • Indici di tendenza centrale e grafici per un campione di piante di mais di diverse varietà ed altezze. • Votazione riportata all’esame di genetica di un campione di studenti . • Peso di un campione di polli da da allevamento • Esempio: Gruppi sanguigni del sistema AB0 in un campione di n=149 individui di una popolazione caucasica. Dato: gruppo sanguigno in n=149 soggetti di razza caucasica Individuo 1 2 3 4 5 6 7 8 9 10 11 12 Gruppo sanguigno B A A A 0 A B 0 0 A A AB Dati Qualitativi (Scala di Misura Nominale) • Esempio: Gruppi sanguigni del sistema AB0 in un campione di n=149 individui di una popolazione caucasica. xi ni pi*100 A 60 40.3 B 16 10.7 AB 7 4.7 0 66 44.3 4 n i 1 i 149 4 p 100 100 i 1 i • Scala Nominale: i dati costituiscono delle “etichette” • Per descrivere i dati si raggrupano in classi, in ognuna delle quali sono raccolte tutte le osservazioni che presentano la stessa caratteristica . ottiene la proporzione (o la percentuale ) degli elementi che presentano l’attributo. • Altri esempi: il carattere “sesso” in una popolazione sessuata, etc. Statistica Descrittiva: Frequenze assolute e relative • Si indica con X la variabile e con x1, x2, x3,……,xn, i singoli valori assunti dalla variabile X, dove n è il numero di osservazioni : un generico membro del gruppo di osservazioni è indicato con xi, dove i=1…..n. • Frequenze Assolute:se in un campione sono presenti più elementi con lo stesso valore(misura),il loro numero è indicato con ni. • Frequenze relative(proporzioni) pi:valore compreso tra 0 e 1 . x1 x2 ... xc X : n1 n2 ... nc X {xi , ni } i 1...c c n n i i ni pi n c p i 1 1 (Dati Qualitativi) Scale di Misura Ordinali • Scala ordinale: E’ possibile assegnare ad ogni osservazione un valore numerico,un punteggio arbitrario che dà ordine alla classificazione . • Esempio: Valutazione della risposta all’applicazione di un farmaco ad n pazienti. Criterio di classificazione Punteggio o ‘SCORES’ xi Frequenze Ass. ni Peggioramento Nessuna Var. Lieve Miglior. Miglioramento Guarigione -1 0 1 2 3 3 4 15 52 26 5 n i 1 i 100 Freq. Relative. pi 0.03 0.04 0.15 0.52 0.26 5 p i 1 i 1 Freq. Perc. (%) 3% 4% 15% 52% 26% Dati Quantitativi. • Scala numeriche:Possono essere scale per intervalli oppure per rapporti. La scala per intervalli è adatta a descrivere fenomeni in cui l’origine dell’unità di misura è scelta arbitrariamente (es: temperatura) La scala per rapporti è invece riferita a fenomeni che presentano un’origine naturale . • Esempio (Scala numerica per intervalli):Temperatura corporea di un campione di 10 soggetti espressa in gradi centigradi e Fahrenheit. Soggetto ° Celsius °F 1 2 3 4 5 6 7 8 9 10 36.2 36.5 36.8 36.4 36.7 36.8 36.5 36.4 37.0 36.1 97.16 97.70 98.24 97.50 98.06 98.24 97.70 97.52 98.60 97.00 Esempio scala numerica per intervalli (temp. °C e °F) • Per le 2 serie ha senso fare le differenze tra le misurazioni (consideriamo i soggetti 3,4,9 ) Differenze tra soggetti °C °F 9e3 3e4 37.0-36.8=0.2 36.8-36.4=0.4 98.60-98.24=0.36 98.24-97.52=0.72 • La differenza di temperatura tra i soggetti 3 e 4 è il doppio di quella tra i soggetti 9 e 3 per entrambe le scale , mentre per i rapporti si nota che tale uguaglianza non sussiste ! Rapporto tra soggetti °C °F 9e3 3e4 37.0/36.8=1.005 36.8/36.4=1.010 98.60/98.24=0.9833 98.24/97.52=1.007 Scala numerica continua per rapporti Esempio: Valori di glicemia in un campione di 10 soggetti sani ,espressi in mg di glucosio per 100 ml di sangue. soggetto mg/ml 1 2 3 4 5 6 7 8 9 10 65.5 80.0 92.8 90.2 100.5 95.0 98.0 70.3 80.0 105.5 Scala numerica discreta Esempio: Numero delle aree di necrosi sulle foglie di 10 piante affette da virosi . pianta n. aree=X 1 2 3 4 5 6 7 8 9 10 28 36 19 26 18 20 32 19 8 23 Distribuzioni di frequenza: tabelle e grafici di frequenza • La frequenza assoluta è il numero degli individui che presentano una certa misura (per un carattere quantitativo) o una certa modalità (per un carattere qualitativo). Esempio, se su 500 insetti 100 sono eterotteri, 200 sono imenotteri e 150 sono ortotteri, possiamo concludere che la frequenza assoluta degli eterotteri è pari a 100. • Con variabili quantitative su scala continua, prima di calcolare le frequenze è necessario suddividere l’intervallo delle misure in una serie di classi di frequenza. Esempio, se abbiamo considerato 3000 piante di mais ed abbiamo osservato che 115 hanno altezze comprese tra 150 e 155 cm, possiamo conclude che la frequenza degli individui della classe 150-155 cm è pari a 115. • Le frequenze relative, che si calcolano dividendo le frequenze assolute per il numero totale degli individui del collettivo. Esempio,la frequenza relativa degli eterotteri è pari a 100/500, cioè 0.2, mentre la frequenza relativa degli individui nella classe 150-155 è pari a 115/3000, cioè 0.038. Distribuzioni di frequenza: tabelle e grafici di frequenza 2 • Con una variabile quantitativa o comunque una variabile nella quale le modalità o le classi di frequenza possono essere logicamente ordinate, oltre alle frequenze assolute e relative possiamo prendere in considerazione le cosiddette frequenze cumulate, che si ottengono cumulando i valori di tutte le classi di frequenza che precedono quella considerata. Esempio se tra le 3000 piante di mais anzidette 224 hanno altezze comprese tra 155 e 160 cm, la frequenza cumulata della classe è pari a 224+115 = 339, che si ottiene sommando alla frequenza assoluta di classe la frequenza assoluta della classe precedente. • Aggregare i dati in forma di distribuzioni di frequenza è estremamente conveniente, perché la lettura delle informazioni in essi contenute è molto più facile! Il prezzo da pagare è una lieve perdita di informazione, come sarà chiaro nell’esempio seguente. Esempio (Distr. Freq. ,Grafici e Tabelle di Freq.) • In un campo di mais sono state rilevate su 20 piante le altezze e la varietà di ciascuna pianta. Numero Piante Varietà Altezza(cm) 1 N 172 2 S 154 3 V 150 4 V 188 5 C 162 ……. …. ….. …….. …… …… ……. ……. …… 16 C 163 17 V 148 18 S 152 19 C 169 20 C 185 Esempio (Distr. Freq.)2 • • • 1 - valutare la distribuzione delle frequenze assolute, relative e percentuali degli individui di ciascuna varietà; 2 - valutare la distribuzione delle frequenze assolute, relative, percentuali assolute cumulate dell'altezza di tutti gli individui; 3 - Disegnare la torta delle frequenze relative della varietà e l'istogramma delle frequenze assolute dell'altezza. Varietà C N S V Freq ass 7 6 3 4 Freq rel 0.35 0.30 0.15 0.20 35 30 15 20 Freq perc Altezza (140,150] (150,160] (160,170] (170,190] (190,200] Freq ass 4 5 4 6 1 Freq rel 0.20 0.25 0.20 0.30 0.05 Freq Perc 20 25 20 30 5 Freq Cum 4 9 13 19 20 5 6 Output:Grafico a torta ed istogramma classi S 0 V 1 2 N 3 Frequenza 4 C (140,150] (150,160] (160,170] (170,190] (190,200] Densità di frequenza • Le densità di frequenza rappresentano la frequenza associata a ciascun punto dell'intervallo della classe. Si cerca in questo modo di evitare che classi molto ampie abbiano frequenze più alte di classi più rappresentative, ma molto strette. Esempio, se ho due classi di altezza, la prima da 160 a 165 cm e la seconda da 165 a 175 cm e ho 5 individui nella prima classe e 5 nella seconda, è chiaro che la seconda classe contiene lo stesso numero di individui della prima, ma è molto più ampia. Se usiamo le sole frequenze non riusciamo ad evidenziare questo fatto, ma se dividiamo la frequenza di classe per l'ampiezza dell'intervallo otteniamo appunto la densità di frequenza: d=ni/ai ,dove ai è l’ampiezza della classe i Nota: In R il comando hist fa riferimento alle frequenze relative d=pi/ai Esempio :Campo di Mais(Classi non equispaziate) • 4 - Calcolare le densità di frequenza per l'altezza delle 20 piante e disegnarne i relativi istogrammi. Considerare le seguenti classi: (130-160], (160-170], (170-190]. 0.010 0.005 0.000 Density 0.015 0.020 Histogram of Altezza 130 140 150 160 170 Altezza 180 190 200 Distribuzioni o funzione di frequenza per variabili discrete pi P( X xi ) P( xi ) pi 0 p i 1 Densità di frequenza(funzione di densità) per variabili continue Y f ( x) f ( x) 0 f ( x ) dx 1 P ( xi ) xi 1 xi f ( x ) dx Distribuzioni Cumulative per variabili discrete • Si definisce funzione cumulativa delle frequenze o semplicemente funzione di distribuzione (o di ripartizione) la funzione : P( X x) F ( x) • Per variabili discrete la funzione di ripartizione si ottiene dalla funzione di frequenza come: Fi F ( xi ) P( X xi ) con 0 F ( x) 1 per X x1 per X xn p X xi i Distribuzioni Cumulative per variabili discrete x F ( x) P( X x) f (u )du rappresenta la probabilità che la variabile statistica X cada nell’intervallo -∞ ,x ; quindi: 0 F ( x) 1 per x per x Graficamente F(x) rappresenta l’area sottesa alla curva dall’estremo di sinistra (-∞ )della distribuzione delle frequenze relative ,fino al valore x. Esempio(funzione di frequenza e di ripartizione per varable discreta ) • Nel lancio di un dado i possibili valori di x sono: 1,2,3,4,5,6. La funzione di frequenza : 1.0 0.8 0.6 0.0 0.2 0.4 F(x) 0.6 0.4 0.2 0.0 Frequenza 0.8 1.0 Funzione di ripartizione 1 2 3 4 x 5 6 0 1 2 3 x 4 5 6 Misure di posizione (Indici di tendenza centrale). • Moda: valore della variabile cui corrisponde la massima frequenza per variabili discrete,la massima densità di frequenza per variabili continue.Se questo valore è unico la distribuzione è unimodale ,bimodale se i picchi sono 2. • Mediana: il valore che permette di ripartire la distribuzione in 2 parti ,in ciascuna delle quali cade il 50% delle osservazioni. Se il numero delle osservazioni è dispari ci sarà un unico valore mediano ,ovvero il termine che occupa nella successione ordinata il posto di posizione (n+1)/2 ,se il numero di oss. è pari ,per convenzione è la media delle 2 oss. centrali. • Medie: Le medie si calcolano sulle potenze k-esime delle osservazioni. Per k=1 si ha la Media Aritmetica . 4 4 19 1 5 20 5 10 21 5 15 22 3 18 23 3 21 24 4 25 25 20 45 26 23 68 27 15 83 28 10 93 29 2 95 30 5 100 15 18 10 Fi 5 ni freq_ass xi 20 Esempio (moda e mediana). Votazione riportata in una classe di 100 studenti all’esame di genetica 18 20 22 24 Votazione 26 28 30 0.0 0.2 0.4 F(x) 0.6 0.8 1.0 Funzione di ripartizione 18 20 22 24 x • Moda=Mediana=26 26 28 30 La Media Aritmetica Esempio E’ assegnato il peso (in Kg) rilevato su un campione di 10 polli di allevamento: [1.9 , 2.2 , 1.8 , 2.5 , 2.8 , 3.0 , 2.0 , 2.6 , 2.4 , 2.0] 1 n 1 x xi (1.9 .... 2.0) 2.32 n i 1 10 Definizioni: 1 n x xi (campione) n i 1 1 N n x ( popolazion e) i 1 i insieme Le Medie(3) • Se i dati sono raccolti in classi di frequenza la media può essere calcolata come (media aritmetica ponderata) : nx x n i i x i pi i Esempio: La variabile xi è il numero di colonie per piastra dopo inoculo con una sospensione batterica : xi ni xini 0 1 2 3 4 5 12 8 6 6 4 3 0 8 12 18 16 15 39 69 Il numero medio di colonie per piastra è dato dalla media x=69/39=1.77 Le Medie(4) • Esempio: I valori relativi al peso di 38 polli vengono raggruppati in classi di frequenza : Classi Valore Centrale Freq. Ass. (xi) (ni) xi*ni nx x n i i i 1.5-2.0 2.1-2.5 2.6-3.0 3.1-3.5 1.75 2.25 2.75 3.25 5 12 15 6 8.75 27.00 41.25 19.50 • • 38 96.50 • 96.50 2.54 38 Il valore della media risulta approssimato rispetto ai valori ottenuti usando le misure originali Per n abbastanza grande e distribuzioni tendenzialmente simmetriche ,gli errori tendono a bilanciarsi Se n è piccolo e la distribuzione non è simmetrica ,è preferibile usare i dati originali per il calcolo del valor atteso