Università degli Studi di Padova Corso di Laurea in Medicina e Chirurgia - A.A. 2015-16 Corso Integrato: Statistica e Metodologia Epidemiologica Disciplina: Statistica e Metodologia Epidemiologica 2 (SME2) Docenti: prof.ssa Anna Chiara Frigo coordinatore Corsi MED3 e MED4 prof.ssa Egle Perissinotto coordinatore Corsi MED1 e MED2 Il corso integrato di STATISTICA ED METODOLOGIA EPIDEMIOLOGICA si articola in due parti. La prima parte (Statistica e Metodologia Epidemiologica 1, 2,0 CFU) è stata svolta al secondo semestre del primo anno, la seconda (Statistica e Metodologia Epidemiologica 2, 4 CFU) al primo semestre del terzo anno. Entrambe le parti sono articolate in un corso teorico ed uno teorico-pratico. Statistica e metodologia epidemiologica 1 (SME1) – I anno II semestre Metodi didattici Le 20 ore disponibili per questa prima parte del Corso Integrato sono suddivise in 12 ore di lezione frontale (parte teorica) e 8 di laboratorio (parte teorico-pratica). I laboratori didattici sono svolti su cinque gruppi per ciascun corso, in forma attiva attraverso lavori di piccolo gruppo e verifica collettiva sugli elaborati prodotti. Statistica e metodologia epidemiologica 2 (SME2) - III anno I semestre Metodi didattici Le 40 ore disponibili per questa seconda parte del Corso Integrato sono suddivise in 32 ore di lezione frontale (parte teorica) e 10 di laboratorio (parte teorico-pratica). I laboratori didattici sono svolti su cinque gruppi per ciascun corso, in forma attiva attraverso lavori di piccolo gruppo e verifica collettiva sugli elaborati prodotti. Corso Disciplina Med1 Med2 Med3 Med4 Corsi Ore Docenti Statistica e Metodologia Epidemiologica 1 Teorico 12 Frigo Anna Chiara Teorico-pratico 8 Perissinotto Egle Statistica e Metodologia Epidemiologica 2 Teorico 32 Perissinotto Egle Teorico-pratico 10 Frigo Anna Chiara Statistica e Metodologia Epidemiologica 1 Teorico 12 Perissinotto Egle Teorico-pratico 8 Frigo Anna Chiara Statistica e Metodologia Epidemiologica 2 Teorico 32 Frigo Anna Chiara Teorico-pratico 10 Perissinotto Egle Modalità di conduzione delle verifiche di apprendimento – A.A. 2015/16 In itinere Per entrambi i corsi di SME1 e SME2, le verifiche di apprendimento in itinere consisteranno in interventi differenti: • durante le lezioni teoriche, somministrazione agli studenti di test ed esercizi con correzione generale; • durante le lezioni teorico-pratiche, somministrazione agli studenti di test ed esercizi con correzione per gruppi di lavoro e generale (con valutazione); • al termine delle lezioni teoriche e teorico-pratiche di ciascuna parte del corso integrato, prima degli appelli d’esame, agli studenti viene proposta una simulazione d’esame per l’autoverifica del grado di apprendimento. Modalità di conduzione delle verifiche di apprendimento – A.A. 2015/16 Finale (esame) Le verifiche di apprendimento finali (esame) consisteranno in una prova in itinere al termine della prima parte del corso (I anno) e nella prova finale d’esame al termine della seconda parte del corso (III anno). L’accesso alla seconda prova è condizionato al superamento con esito positivo (IDONEITÀ) della prova in itinere. Il voto nella prova finale (in trentesimi) al termine della seconda parte di corso (III anno) costituirà il voto finale. Per entrambe le parti, la prova d’esame è scritta. La prova in itinere (SME I I anno) è composta da quesiti a risposta multipla. La prova finale (SME II - III anno) è composta da quesiti a risposta multipla e da un esercizio. Durante la prova d’esame è consentita agli studenti la consultazione del materiale didattico. L’iscrizione all’esame è obbligatoria tramite Uniweb. APPELLI D’ESAME - Corso di SME2 Sessione invernale 02/12/15 ore 13:00 – pre appello SME1 fuori corso 02/12/15 ore 15:00 – pre appello SME2 fuori corso 25/01/16 – I appello 22/02/16 – II appello Sessione estiva 27/06/16 – I appello 18/07/16 – II appello Sessione autunnale 31/08/16 – I appello 12/09/16 – II appello Modalità di iscrizione all’esame • attraverso Uniweb • è obbligatorio che sia attivo l’account di posta elettronica dell’Università Modalità di verifica delle presenze – A.A. 2015/16 Le presenze saranno rilevate: • Nel corso teorico mediante raccolta firme durante tutte le lezioni; • Nel corso teorico-pratico mediante raccolta firme durante tutte le lezioni. Obiettivi formativi Mettere in grado il futuro laureato di: − conoscere potenzialità e limiti del campionamento in medicina; − capire le basi dell'inferenza statistica; − affrontare l’analisi di studi clinici mediante tecniche statistiche da utilizzare per il confronto di due gruppi; − analizzare l’associazione di caratteristiche sia qualitative che quantitative. Prerequisiti L’accesso alla seconda parte del corso integrato è condizionato al superamento della prima parte, svolta al primo anno. Si richiede comunque una adeguata conoscenza degli argomenti trattati al primo anno e, in particolare: momenti fondamentali di un processo di produzione e descrizione dei dati statistici mediante tabelle e grafici; calcolo di misure di tendenza centrale e di posizione, di indici di variabilità e forma delle distribuzioni statistiche; indicatori e modelli di indagine epidemiologica; concetti fondamentali del calcolo delle probabilità. Università degli Studi di Padova Corso di Laurea in Medicina e Chirurgia - A.A. 2015-16 Corso Integrato: Statistica e Metodologia Epidemiologica Disciplina: Statistica e Metodologia Epidemiologica 2 (SME2) Docenti: prof.ssa Anna Chiara FRIGO – prof.ssa Egle PERISSINOTTO Programma 1. Distribuzioni di probabilità ed elementi di statistica inferenziale 4. Verifica di ipotesi su due gruppi per variabili quantitative - Le più comuni variabili casuali: Binomiale, Poisson, Normale - Teorema centrale della Statistica - Popolazione e campione - La distribuzione delle medie campionarie - 2. Stima 5. Associazione tra variabili categoriali - Stima puntuale e intervallare - Stima della media di una popolazione mediante intervallo di fiducia - Stima della proporzione di una popolazione mediante intervallo di fiducia - Calcolo della dimensione del campione per la stima di una media - Calcolo della dimensione del campione per la stima di una proporzione - Test chi quadrato per campioni indipendenti - Calcolo della dimensione del campione nel caso di due proporzioni - Test di McNemar per osservazioni appaiate - Intervallo di fiducia per l'Odds Ratio - Intervallo di fiducia per il Rischio Relativo - Intervallo di fiducia per la differenza di due proporzioni Test t di Student per campioni dipendenti Test t di Student per campioni indipendenti La dimensione del campione Test di Wilcoxon per campioni dipendenti e per campioni indipendenti 3. La logica del test di ipotesi 6. Relazione tra variabili quantitative - Ipotesi nulla e ipotesi alternativa - Livello di significatività e potenza di un test - L'inferenza con un singolo campione per dati quantitativi e qualitativi - La dimensione del campione - Il modello di regressione lineare semplice I coefficienti di regressione e correlazione Il coefficiente di correlazione per ranghi di Spearman Il coefficiente di determinazione Verifica di ipotesi sui coefficienti di regressione correlazione prof.ssa Frigo Anna Chiara Dipartimento di Scienze Cardiologiche, Toraciche e Vascolari via Loredan, 18 35131 Padova tel. 049/8275412 e-mail: [email protected] prof.ssa Perissinotto Egle Dipartimento di Scienze Cardiologiche, Toraciche e Vascolari via Loredan, 18 35131 Padova tel. 049/8275405 e-mail: [email protected] Testi consigliati: M. Pagano, K. Gauvreau “Biostatistica II edizione” II Edizione italiana a cura di I.F. Angelillo, M. Pavia, P. Villari, G. Di Natale. Ed. Idelson-Gnocchi, 2003 Per consultazione: M. Bland “Statistica Medica”. Milano: APOGEO, 2009. P. Armitage e G. Berry “Statistica Medica - Metodi statistici per la ricerca in Medicina”. Milano: McGraw-Hill Libri Italia srl, 1996. Calendario delle lezioni di Statistica e Metodologia Epidemiologica 2 – A.A. 2015-16 MED1 e MED2 (prof.ssa Egle PERISSINOTTO) SETTIMANA Lunedì Mercoledì 12:00-13:30 12:00-13:30 Aula D Aula D Vallisneri Vallisneri Giovedì 12:00-12:45 Aula D Vallisneri 1ª 05/10/15 07/10/15 08/10/15 2ª 12/10/15 14/10/15 15/10/15 3ª 19/10/15 21/10/15 22/10/15 4ª 26/10/15 28/10/15 29/10/15 5ª 02/11/15 04/11/15 05/11/15 6ª 09/11/15 11/11/15 12/11/15 7ª 16/11/15 17/11/15* 20/11/15 SIMULAZIONE ESAME data in gennaio da definire * invece del 18/11 per concomitanza con il PROGRESS-TEST Calendario delle lezioni di Statistica e Metodologia Epidemiologica 2 – A.A. 2015-16 MED3 e MED4 (prof.ssa Anna Chiara FRIGO) Lunedì 12:00-13:30 Aula Magna Fisiologia Mercoledì 12:00-13:30 Aula Magna Fisiologia Giovedì 12:00-12:45 Aula Magna Fisiologia 1ª 05/10/15 07/10/15 08/10/15 2ª 12/10/15 14/10/15 15/10/15 3ª 19/10/15 21/10/15 22/10/15 4ª 26/10/15 28/10/15 29/10/15 5ª 02/11/15 04/11/15 05/11/15 6ª 09/11/15 11/11/15 12/11/15 7ª 16/11/15 17/11/15* 20/11/15 SETTIMANA SIMULAZIONE ESAME data in gennaio da definire * invece del 18/11 per concomitanza con il PROGRESS-TEST Calendario dei laboratori di Statistica e Metodologia Epidemiologica 2 – A.A. 2015-16 Laboratori MED1 e MED2 (Frigo) aula C Laboratori MED3 e MED4 (Perissinotto) aula C M1_2_1 M1_2_2 M1_2_3 M1_2_4 M1_2_5 M3_4_1 M3_4_2 M3_4_3 M3_4_4 M3_4_5 1° 16/11/15 14:00-15:30 16/11/15 15:45-17:15 19/11/15 14:00-15:30 19/11/15 15:45-17:15 25/11/15 14:00-15:30 23/11/15 12:15-13:45 24/11/15 12:15-13:45 25/11/15 12:15-13:45 26/11/15 12:15-13:45 27/11/15 12:15-13:45 2° 23/11/15 14:00-15:30 23/11/15 15:45-17:15 24/11/15 14:00-15:30 24/11/15 15:45-17:15 01/12/15 8:30-10:00 01/12/15 12:15-13:45 01/12/15 14:00-15:30 02/12/15 12:15-13:45 03/12/15 12:15-13:45 03/12/15 14:00-15:30 3° 02/12/15 8:30-10:00 03/12/15 8:30-10:00 09/12/15 8:30-10:00 09/12/15 14:00-15:30 10/12/15 8:30-10:00 09/12/15 12:15-13:45 10/12/15 12:15-13:45 10/12/15 14:00-15:30 10/12/15 15:45-17:15 10/12/15 17:30-19:00 4° 14/12/15 12:15-13:45 14/12/15 14:00-15:30 15/12/15 12:15-13:45 15/12/15 14:00-15:30 17/12/15 8:30-10:00 14/12/15 10:30-12:00 15/12/15 10:30-12:00 16/12/15 10:30-12:00 17/12/15 10:30-12:00 17/12/15 12:15-13:45 5° 11/01/16 8:30-10:00 12/01/16 8:30-10:00 12/01/16 13:45-15:15 13/01/16 8:30-10:00 14/01/16 8:30-10:00 12/01/16 10:30-12:00 12/01/16 12:00-13:30 13/01/16 10:30-12:00 14/01/16 10:30-12:00 14/01/16 12:15-13:45 GRUPPO COGNOMI LABORATORIO Sede: Dipartimento di Scienze Cardiologiche, Toraciche e Vascolari - Via Loredan, 18 Sito dove reperire copia dei moduli presentati a lezione http://147.162.76.190/didattica/SME2 http://www.dctv.unipd.it/ (in fase di attivazione) Modulo 1: Distribuzioni di probabilità ed elementi di statistica inferenziale • Le più comuni variabili casuali: Binomiale, Poisson, Normale • Teorema centrale della Statistica • Popolazione e campione • La distribuzione delle medie campionarie LA DISTRIBUZIONE DELLE FREQUENZE RELATIVE EMPIRICHE INFORMA SU LA DISTRIBUZIONE DELLA PROBABILITÀ TEORICA CHE INFORMA SU LE PROBABILITÀ TEORICHE DI VERIFICARSI DI DIFFERENTI VALORI Esempio: Trattamento del diabete Modalità (eventi) 1 2 3 4 … k Frequenza relativa Nessuno f1 Solo dieta f2 Ipoglicemizzanti orali f3 Insulina f4 ……… … Altro (anche i trattamenti combinati) fk Totale 1 Nell’esempio della variabile “Trattamento del diabete”: Le modalità della variabile: sono incompatibili formano una classe completa di eventi Essendo ni (i=1,...,k) le frequenze assolute ed n il loro totale, si può scrivere: con: ni fi pi n k p i 1 i 1 Definizione di variabile casuale Una variabile casuale X è una funzione che associa ad ogni evento elementare un unico numero reale, cioè è una variabile il cui risultato numerico è determinato dal risultato di una prova. E5 E3 E1 E4 E2 x1 x2 x3 x4 x5 X Le variabili casuali (1) (v.c.) Sono modelli teorici utili a descrivere i fenomeni. Sono sempre specificate da due entità: a) l’insieme dei valori assunti dalla variabile b) le probabilità associate a ciascun valore (o la densità di probabilità associata ad un intervallo di valori) Gli eventi specificati dai valori assunti dalle variabili sono sempre incompatibili, e formano una classe completa (spazio degli eventi) La somma delle probabilità (o l’integrale della funzione di densità di probabilità esteso a tutto il campo di esistenza della variabile) vale uno Le variabili casuali (2) (v.c.) Variabili casuali discrete La v.c. assume un numero finito o numerabile di risultati (numero di componenti di una famiglia, numero di esami superati con successo la prima volta, …) Variabili casuali continue La v.c. può assumere un qualsiasi valore nell’ambito di uno specifico intervallo (pressione sistolica, sopravvivenza dopo la diagnosi di un tumore, …) Modello generale per v.c. discrete xi X = x1 x2 ……… xk p1 p2 ……… pk = pi La funzione di probabilità è data da: p(x) = P(X=x) Proprietà: pi 0 per ogni i k p i1 i 1 La funzione di ripartizione per v.c. discrete La funzione F(x) = P(X ≤ x) = y ≤ x p(y) è la funzione di ripartizione che gode delle seguenti proprietà: • P(a ≤ X ≤ b) = F(b) - F(a); • per b < a F(b) ≤ F(a), cioè è non decrescente; • è continua a destra; • limx + F(x) = 1 e limx - F(x) = 0; • per ogni p (0,1), il p-esimo quantile qp di una v.c. X con funzione di ripartizione F(x) è il più piccolo valore x tale che F(x) = p Esempio: lancio di una moneta 3 volte Tutte le possibili combinazioni di testa (T) e croce (C) sono 8: (TTT, TTC, TCT, CTT, CCT, CTC, TCC, CCC) La variabile X, numero totale delle teste, è una v.c. discreta che assume i valori (0,1,2,3) con probabilità: P(X=0) = 1/8 = 0,125 P(X=1) = 3/8 = 0,375 P(X=2) = 3/8 = 0,375 P(X=3) = 1/8 = 0,125 P(x) 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 = 0,125+0,375+0,3875+0,125 = 1 F(x) 1,0 = 0,125+0,375+0,3875 = 0,8875 0,9 0,8 0,7 0,6 = 0,125+0,375 = 0,500 0,5 0,4 0,3 0,2 = 0,125 0,1 0 1 2 3 Numero di successi 0,0 -5 -4 -3 -2 -1 0 1 2 3 Numero di successi 4 5 6 Parametri (valori caratterizzanti) di una v.c. discreta Media: k M(X) xi p i 1 i Varianza: k σx 2 i1 xi M(x) 2 p i Esempio: v.c. Binomiale elementare o v.c. di Bernoulli (può esprimere fenomeni dicotomici quali: vivo/morto, guarito/non guarito, ecc.) xi X 1 0 p q = pi dove q = 1-p Si ha: M(X) 1 p 0 1 - p p σ 1 - p 2 x 2 p 0 - p 1- p p 1- p p q 2 Binomiale generalizzata Se si fanno n prove indipendenti, si ha la Binomiale generalizzata caratterizzata dai parametri n e p. Il valore r (r = 0, 1, ..., n) assunto dalla variabile si chiama NUMERO DI SUCCESSI e indica il numero di volte in cui si verifica un fissato evento nell’insieme delle prove elementari. Esempio: Lancio di una moneta 5 volte n = 5, p = ½ = probabilità dell’evento elementare, ossia in un lancio di avere testa (T). r = numero di volte in cui si ottiene testa nei 5 lanci Binomiale generalizzata (n=5, p=0,5): Prob(r=0) Calcoliamo la probabilità di ottenere r = 0 successi (nessuna testa): Prova: Evento: 1ª C 2ª C 3ª C 4ª C 5ª C essendo P(C)=0,5, in forza del principio delle probabilità composte, si ha: 1 1 1 1 1 1 Pr 0 2 2 2 2 2 2 5 Binomiale generalizzata (n=5, p=0,5): Prob(r=1) Calcoliamo la probabilità di ottenere r = 1 successi (una testa nei 5 lanci): Nella successione dei 5 lanci, questo evento si può verificare in uno dei seguenti modi: A1 = T C C C C A2 = C T C C C A3 = C C T C C A4 = C C C T C A5 = C C C C T Per il principio delle probabilità composte, la probabilità di ciascuno di questi eventi vale: 1 1 1 1 1 1 PA1 PA 2 PA 3 PA 4 PA 5 2 2 2 2 2 2 5 Binomiale generalizzata (n=5, p=0,5): Prob(r=1) Poiché r = 1 è verificato da uno qualsiasi dei 5 modi indicati, ossia dall’evento A derivante dall’unione: A = A1 A2 A3 A4 A5 per il principio delle probabilità totali si ha: P(A) PA 1 PA 2 PA 3 PA 4 PA 5 1 1 1 1 1 1 5 5 2 2 2 2 2 2 5 Binomiale generalizzata (n=5, p=0,5): Prob(r=2) Per arrivare alla formula generale, è interessante calcolare la probabilità di ottenere r = 2 (due teste nei 5 lanci). L’evento A = (r = 2 ) si può presentare, ad esempio, con la seguente successione di eventi (risultati) elementari: A1 = T T C C C ma anche da queste altre serie di risultati: A2 A3 A4 A5 = = = = T T C C C C T C T C C T C T T C C C C T ……………………………………………………………….. ……………………………………………………………….. Il numero dei modi possibili è dato dalle combinazioni di 5 oggetti presi due a due Numero delle combinazioni In generale, il numero di combinazioni di n oggetti presi ad r ad r é espresso da: n n! r r! n - r ! L’operatore “k!” si legge “fattoriale di k”, e indica il prodotto dei primi k numeri naturali. Esempio: 5! = 5 4 3 2 1 = 120 (si conviene che 0! = 1) Ne deriva che i modi possibili di avere 2 successi in 5 prove sono in numero di: 5 5! 5 432 10 23 2 2 2! 5 - 2! Binomiale generalizzata (n=5, p=0,5): Prob(r=2)=Prob(r=3) Poiché il generico modo Ai ha probabilità di verificarsi: 1 PA i 2 5 e i diversi modi sono a due a due incompatibili, richiamando il principio delle probabilità totali, la probabilità dell’evento A (unione di tutti i possibili modi con cui si possono ottenere r = 2 successi) è data da: 5 5 5! 10 1 1 P(r 2) 10 2! 3! 2 32 2 Analogamente si trova che: 5 5 5! 10 1 1 P(r 3) 10 3! 2! 2 32 2 Notare che: n n n! r n - r r! n - r ! Binomiale n=5, p=0,5: distribuzione delle probabilità del numero di successi 0,35 0,30 P(r) 0,25 0,20 0,15 0,10 0,05 0,00 0 1 2 3 4 Numero di successi 5 X = Binomiale generalizzata (n prove) Ponendo per una generica binomiale elementare Xi: xi = 1 successo xi = 0 insuccesso Il valore r assunto dalla binomiale generalizzata risulta dalla somma dei risultati delle binomiali elementari indipendenti: n r xi i1 La funzione di probabilità di r, caratterizzata dai parametri n e p, è data da: n r P( X r ) p qnr r LA DISTRIBUZIONE BINOMIALE GENERALIZZATA (1) La distribuzione Binomiale descrive il numero di volte in cui si presenta un dato evento (definito come successo) in una sequenza di osservazioni. Si è quindi interessati all’occorrenza del fenomeno e non alla sua dimensione. Es.: il numero di figli maschi in una famiglia, il numero di esami superati con successo la prima volta tra quelli previsti. La sua funzione di probabilità è data da: n n! 1 2 3 ... n x x!(n x )! (1 2 3 ... x ) (1 2 3 ... (n x )) n x P(x) p (1- p)n-x per x 0, 1, 2,..., n x dove: n rappresenta il numero di prove; p è la probabilità di successo in ciascuna prova (0 p 1); x è il numero di successi. La media e la varianza, sono rispettivamente pari a: = np e ² = np(1-p) LA DISTRIBUZIONE BINOMIALE GENERALIZZATA (2) Le condizioni di applicabilità della distribuzione Binomiale sono che: • le n prove siano identiche, • le prove siano indipendenti, • ciascuna prova possa avere solo un esito: successo o insuccesso, • la probabilità di successo p sia costante tra le prove. La distribuzione Binomiale per alcuni valori di n e p P(X>8)0,01 P(X>13)0,007 P(X>43)=0,002 La distribuzione Binomiale per n=100 ed alcuni valori di p p=0,25, n=100 Probabilità Probabilità p=0,1, n=100 p=0,75, n=100 Probabilità Probabilità p=0,5, n=100 Esempio applicazione distribuzione Binomiale generalizzata In un reparto di Ostetricia sono nati 6 bambini in una giornata. Si determini la probabilità che vi sia un ugual numero di maschi e femmine sapendo che la probabilità che un neonato sia maschio è pari a 0,51. Dai dati si ha: n=6 p = 0,51 x=3 6 6! 3 6- 3 P(X 3) 0,51 (1- 0,51) 0,513 0,49 3 0,31. 3!3! 3 LA DISTRIBUZIONE DI POISSON (1) La distribuzione di Poisson è utilizzata per descrivere il numero di eventi (x) che si manifestano in un dato intervallo (di tempo o di spazio). Spesso è utilizzata per descrivere gli eventi rari. Es.: il numero di malformazioni nel nascituro, il numero di particelle emesse da una sostanza radioattiva. La sua funzione di probabilità è data da: x P(x ) e per x 0, 1, 2,... x! dove: > 0 è una costante e rappresenta il numero medio di eventi in un dato intervallo; e = 2,71828… (base dei logaritmi naturali). La media e la varianza sono rispettivamente pari a: = e ² = LA DISTRIBUZIONE DI POISSON (2) Le condizioni di applicabilità della distribuzione di Poisson sono che gli eventi siano: • rari (la probabilità di occorrenza in un definito intervallo sia piccola), • indipendenti, • tali per cui il loro tasso medio (incidenza) sia costante nell’intervallo di interesse. Quando n è molto grande e p è piccolo (n>30 e np<10), la Binomiale può essere approssimata dalla Poisson e quindi: x n p P( x) enp per x 0, 1, 2,... x! La distribuzione di Poisson per alcuni valori di =5 Probabilità Probabilità = 15 = 35 Probabilità Probabilità = 25 Esempio: applicazione distribuzione di Poisson (1) Supponiamo che il numero medio di incidenti che avvengono all’incrocio dell’Ospedale di Padova tra le 19 e le 20 del lunedì sia pari a 1. Qual è la probabilità che lunedì prossimo tra le 19 e le 20 avvengano 2 incidenti? Dai dati si ricava: = 1 incidente all’ora x=2 e quindi: 12 P(2) e 1 0,18394. 2! Una probabilità corrispondente a circa 1/5. Esempio: applicazione distribuzione di Poisson (2) Supponiamo che i batteri coliformi siano presenti nel fiume Piovego ad una concentrazione media di 1 per 20cc di acqua. Se prendessimo dal fiume una provetta con 10cc di acqua, quale sarebbe la probabilità di trovare esattamente 2 batteri coliformi nel campione? Dai dati si ricava: = 0,5 per 10cc di acqua x=2 e quindi: 0,5 2 P(2) e -0,5 0,075816. 2! Una probabilità corrispondente a circa 1/13. Esempio: applicazione di approssimazione della Binomiale alla Poisson Si sa che in una certa regione 1 uomo su 100 è daltonico. Qual è la probabilità di trovare 2 daltonici in un campione casuale di 50 uomini? Dai dati si ricava: n=50, p=0,01 e = 0,5 x=2 e quindi: 0,5 2 P(2) e -0,5 0,075816. 2! Con la binomiale avremmo ottenuto P(2)=0,075618. 0.14 Frequenza relativa 0.12 0.10 0.08 0.06 0.04 0.02 0.00 Pressione sistolica (mmHg) LA VARIABILE CASUALE CONTINUA È una variabile casuale che può assumere tutti i valori in un intervallo reale e quindi piuttosto che assegnare una misura di probabilità a singoli valori, si assegna una misura di probabilità a tutti i possibili intervalli dell’asse reale 114456 114487 114590 11552 115534 11556 115578 115690 11662 116634 11665 116678 116790 11772 117734 117756 11778 117890 11882 118834 118856 Frequenzasoluta 2 0 1 6 Frequenzarelativa(%) I s t o g r a m m a d e l l a d i s t r i b u z i o n e d e l l a s t a t u r a d e l l e r a g a z z e d i1 8 a n n i( N = 5 4 8 ) ( V e n e t o G r o w t h S t u d y ) 4 8 4 4 4 0 3 6 3 2 2 8 2 4 1 2 8 4 0 S T A T U R A ( c m ) La distribuzione di una v.c. continua si può immaginare come una successione di istogrammi costituiti da barre di cui si riduce progressivamente l’ampiezza dell’intervallo di valori fino a ridurli a dimensione infinitesima Tale rappresentazione grafica prende il nome di FUNZIONE DI DENSITÀ di probabilità. La funzione di densità f(t) è tale per cui: x F( x) f (t ) dt Proprietà: • P(X = x) = 0; • f(x) 0 per ogni x; • f ( x) dx 1; • P(a ≤ X ≤ b) = P(a < X < b) = F(b) - F(a); • F(a) = P(X ≤ a) = a f ( t ) dt; • la funzione di ripartizione è continua; • f(x) = dF(x)/dx La v.c. Normale (o Gaussiana) Tutte le Normali hanno la stessa forma e sono definite da - a + Sono simmetriche rispetto all’asse X = Media, mediana e moda coincidono Presentano due flessi (cambio di concavità) nei punti ( - ) e ( + ) Tutte le distribuzioni Normali sono individuate da due parametri: e e sono genericamente indicate con N (; ) La funzione di densità di probabilità è data da: ( x )2 2 2 e f ( x) per - x 2 Funzione di densità di probabilità Funzione di ripartizione 0,25 1,0 0,9 0,20 0,7 0,15 F (x) f (X) 0,8 0,10 0,05 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Moda Mediana Media Aritmetica X 0 1 2 3 4 5 6 7 8 9 10 1112 13 14 15 1617 18 19 X La distribuzione Normale al variare di e Approssimazione della binomiale con la curva di Gauss (o normale) Si dimostra che, all’aumentare del numero delle prove n, la funzione di probabilità della Binomiale X è bene approssimata dalla Normale 0,25 0,20 f(x) 0,15 σ np q 0,10 0,05 0,00 = np x Problema P {glicemia 90mg/dl} = ? 0,09 0,08 = 5,1 mg/dl 0,07 f (x) 0,06 0,05 0,04 0,03 0,02 0,01 0,00 63 68 73 78 83 88 93 98 103 108 113 118 123 = 93 mg/dl Glicemia (mg/dl) Distribuzione NORMALE STANDARDIZZATA Quando = 0 e = 1 la distribuzione Normale è chiamata NORMALE STANDARDIZZATA, e viene indicata N(0,1) Questa variabile casuale viene indicata con la Z La funzione di ripartizione di Z è riportata nelle tavole della normale 1-F(z) 1-F(z) =1 = 0 Pr Z 1,41 = ? 1,41 = 0,0793 8% Z Per il calcolo delle aree sottese alla curva relativamente a qualsiasi variabile casuale normale è possibile ricorrere alle tavole della Z, calcolando lo scarto standardizzato : 1-F(X) x- z -Z1 Z1 0,09 0,08 = 5,1 mg/dl 0,07 f (x) 0,06 0,05 0,04 0,03 0,02 0,01 0,00 63 68 73 78 83 88 93 98 103 108 113 118 123 = 93 mg/dl Z x - μ 90 - 93 0,59 σ 5,1 P {glicemia 90mg/dl} = P{Z -0,59} = 0,28 Glicemia (mg/dl) POPOLAZIONE (per la quale vorremmo conoscere l’effetto) inferenza CAMPIONE (in cui osserviamo l’effetto) IL CAMPIONE Al fine di garantire la correttezza delle conclusioni raggiunte per mezzo dell’inferenza statistica, che è fondata sul calcolo delle probabilità, si devono applicare procedure casuali di campionamento (ossia di scelta degli elementi). • Campione casuale (probabilistico) Ogni unità della popolazione ha una probabilità nota e non nulla di entrare a far parte del campione. a) con reinserimento Ogni elemento estratto viene reinserito in modo da non alterare la composizione della popolazione ed avrà sempre la stessa probabilità di essere estratto ►x1, x2, ..., xn indipendenti ed identicamente distribuite (i.i.d.) b) senza reinserimento Ogni elemento estratto non viene reinserito per cui la composizione della popolazione è modificata e dopo ogni estrazione la probabilità che gli elementi restanti entrino a far parte del campione sarà modificata ed influenzata dalle estrazioni precedenti ►x1, x2, ..., xn dipendenti LA DISTRIBUZIONE CAMPIONARIA Concetto molto difficile perché occorre fare un grande sforzo di astrazione tra ciò che si osserva e ciò che sta realmente accadendo, ma è cruciale per capire l’inferenza statistica. La distribuzione campionaria di una statistica è l’insieme di tutti i possibili valori della statistica quando tutti i possibili campioni di dimensione n vengono estratti dalla popolazione. Poiché un campione è solo una parte della popolazione, ciascuna statistica varierà da campione a campione. Esempio Pensiamo ad una ipotetica popolazione composta da 5 ragazzi le cui età in anni compiuti sono: x1=13, x2=14, x3=15, x4=16, x5=17. P(X) 0,20 0,18 0,16 0,14 0,12 0,10 Questa distribuzione è caratterizzata dai parametri: = 15 e ² = 2 e dalla distribuzione di probabilità in figura. 0,08 0,06 0,04 0,02 X 0,00 13 14 15 16 17 Campioni con reinserimento ed n =2 (5² = 25 possibili campioni) P(M) 0,20 0,18 Campioni M P(M) {13, 13} 13,0 1/25 {13, 14} {14, 13} 13,5 2/25 0,14 {13, 15} {14, 14} {15, 13} 14,0 3/25 0,12 {13, 16} {14, 15} {15, 14} {16, 13} 14,5 4/25 0,10 {13, 17} {14, 16} {15, 15} {16, 14} {17, 13} 15,0 5/25 0,08 {14, 17} {15, 16} {16, 15} {17, 14} 15,5 4/25 0,06 {15, 17} {16, 16} {17, 15} 16,0 3/25 0,04 {16, 17} {17, 16} {17, 17} 16,5 17,0 2/25 1/25 0,02 0,16 M 0,00 13 14 15 16 M = 15, ²M = 1 17 Campioni con reinserimento ed n =3 (53 = 125 possibili campioni) M P(M) 13,00 13,33 13,67 14,00 14,33 14,67 15,00 15,33 15,67 16,00 16,33 16,67 17,00 0,008 0,024 0,048 0,080 0,120 0,144 0,152 0,144 0,120 0,080 0,048 0,024 0,008 P(M) 0,20 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 M 13 14 15 16 M = 15, ²M = 0,67 17 Campioni senza reinserimento ed n =2 (C5,2 = 5!/(3!2!) =10 possibili campioni) P(M) Campioni M P(M) {13, 14} {13, 15} {13, 16}{14, 15} {13, 17} {14, 16} {14, 17} {15, 16} {15, 17} {16, 17} 13,5 14,0 14,5 15,0 15,5 16,0 16,5 0,1 0,1 0,2 0,2 0,2 0,1 0,1 0,20 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 M 13,5 14,5 15,5 16,5 M = 15, ²M = 0,75 Campioni senza reinserimento ed n =3 (C5,3 = 5!/(2!3!) =10 possibili campioni) M P(M) 14,00 14,33 14,67 15,00 15,33 15,67 16,00 0,1 0,1 0,2 0,2 0,2 0,1 0,1 P(M) 0,20 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0,00 M 14 14,67 15,33 16 M = 15, ²M = 0,33 TEOREMA CENTRALE DELLA STATISTICA Il teorema centrale della Statistica, fornisce una base teorica per il vasto impiego della distribuzione Normale. Il teorema stabilisce che all’aumentare della numerosità campionaria n la distribuzione della media campionaria: 1. diventa approssimativamente Normale qualsiasi sia la distribuzione della variabile originaria; 2. ha come media la media () della variabile nella popolazione e la deviazione standard della distribuzione della media campionaria, tende a n (errore standard della media). Nel caso di estrazione da popolazioni infinite o con reinserimento. Nel caso di estrazione da popolazioni finite o senza reinserimento: N n n (N 1) Variabile casuale campionaria associata alla media aritmetica Variabile Casuale Universo σ n Errore Standard X M INFERENZA STATISTICA Finalità: acquisire informazioni (media, frequenza, distribuzione di una variabile, relazione tra variabili, ecc.) su di una popolazione utilizzando le osservazioni di un campione da essa estratto. Strumento: informatore campionario (o statistica campionaria), ottenuto mediante una o più operazioni, non necessariamente algebriche, sui dati campionari. Esso ha le seguenti caratteristiche: – per ogni campione si ottiene un solo risultato; – il risultato è un numero reale; – variando il campione il risultato non è sempre uguale, e genera una distribuzione campionaria, cioè una variabile casuale campionaria (v.c.c.).