Obiettivi lezione 4 CAPIRE: – distribuzione della popolazione campionata – distribuzione di quantità che dipendono dal campione (distribuzioni campionarie) CONOSCERE: – Le distribuzioni della media campionaria, delle proporzioni campionarie, della varianza campionaria – Le distribuzioni della differenza tra due medie, tra due proporzioni DECIDERE: – se si può utilizzare l’ipotesi normale – se la varianza è conosciuta o incognita (nei casi in cui valga l’ipotesi normale ELABORARE: – tramite esercizi di interesse applicativo Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino 1 Distribuzione del Campione Distribuzione della POPOLAZIONE su cui facciamo le nostre osservazioni Per capire quale sia la distribuzione del campione devo considerare le caratteristiche del fenomeno in esame. Una raccolta di osservazioni può aiutarmi in tale decisione: guardo l’istogramma!. Tutta la popolazione: non solo la parte che osservo! Esempi: • Misuro il tempo mutazioni genetiche successive di una specie di grano sottoposta a un certo trattamento. Ripeto l’osservazione 10 volte, collezionando 10 valori. Ogni osservazione può venir vista come il valore assunto da una variabile casuale distribuita ESPONENZIALMENTE. Se ho campionato bene le 10 osservazioni possono venir considerate come i valori assunti da 10 variabili casuali esponenziali INDIPENDENTI. Cosa vuol dire campionare bene in questo caso? • Misuro la lunghezza del cranio di 5 individui di un certo gruppo etnico. Ogni misura può venir vista come il valore assunto da una variabile casuale con distribuzione NORMALE con µ=30 cm, σ 2 = 4 cm 2. Se ho scelto in modo casuale i 5 individui le 5 osservazioni possono venir considerate come i valori assunti da 5 variabili casuali normali INDIPENDENTI. Cosa vuol dire campionare bene in questo caso? 2 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Quantità che dipendono dal campione Prima dell’esperimento Media campionaria: Sono variabili casuali Varianza campionaria: Posso studiarne la distribuzione , Dopo l’esperimento Media campionaria: Sono numeri Varianza campionaria: Sono i valori assunti da una variabile casuale con distribuzione 3e Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Stimatori e stime P R I M A D E L L ’ E S P E R I M E N T O Campione: X1, X2,…, Xn Campione: x1, x2,…, xn v. casuali indipendenti numeri STIMATORE v. casuale Es. X=Σ Xi n Probabilità che lo stimatore assuma valori in un certo intervallo: P(a < X < b) Es. x=Σ xi n STIMA numero ? D O P O L ’ E S P E R I M E N T O Un numero è vero o falso 4 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Distribuzione della media campionaria X PROMEMORIA: La media campionaria è definita da = Sn n OSSERVAZIONE: La media campionaria ha un’espressione della forma a Possiamo utilizzare il teorema del limite centrale. Se n è sufficientemente grande √ √ dove = Questo è equivalente a dire che e varianza = è distribuito normalmente con media 5 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Esempio: Consideriamo la proporzione di libro di testo letta da ogni studente che si presenta a un esame. Intervistiamo 50 studenti compiliamo l’istogramma 1 e valutiamo la media su tale gruppo; intervistiamone altri 50 e ricaviamo un nuovo valor medio e il nuovo istogramma 2; procediamo in modo analogo per 50 gruppi di studenti. Collezioniamo man mano le medie di ciascun campione con le quali tracciamo l’ultimo istogramma: i primi 50 istogrammi corrispondono a delle distribuzioni uniformi l’ultimo si avvicina a una normale! PRIMO CAMPIONE SECONDO CAMPIONE TERZO CAMPIONE 20 16 16 18 14 14 16 12 12 14 10 10 8 6 No of obs No of obs 12 10 8 8 6 6 4 4 4 2 2 2 0 0.0 0.2 0.4 0.6 0.8 1.0 0 0.0 0 0.0 0.2 0.4 0.6 QUARTO CAMPIONE 0.2 1.0 0.4 0.6 0.8 1.0 Upper Boundaries (x <= boundary) Istogramma delle medie campionarie 50 campioni di 50 dati estratti da una popolazione uniforme 16 14 30 12 25 10 20 8 ……. 6 No of obs No of obs 0.8 15 10 4 5 2 0 0 0.0 0.2 0.4 0.6 0.8 0.40 0.45 0.50 0.55 0.60 0.65 Expected Normal 1.0 DOMANDA: potrei scegliere un numero diverso di gruppi di studenti? Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino 6 Distribuzione della media campionaria GRANDI CAMPIONI Data una popolazione con una QUALUNQUE distribuzione con media µ e varianza σ2 la distribuzione della media campionaria X, calcolata da un campione di taglia n, è APPROSSIMATIVAMENTE distribuita come una NORMALE con media µ e varianza σ2/n. In pratica: l’approssimazione normale è ragionevole se n ≥ 30 La media campionaria è ancora distribuita normalmente con media µ però ora la normale ha varianza Come faccio: ho un campione da una popolazione di dimensione finita N senza reinserimento? 7 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Stima della media di una popolazione con σ noto tramite X • Se la popolazione da cui campioniamo è N(µ,σ2 ) la v.a. X è ancora Gaussiana con media µ e varianza σ2/n. • Se campioniamo da una popolazione QUALUNQUE e la taglia del campione è GRANDE la v.a. X è, con buona approssimazione, Gaussiana con media µ e varianza σ2/n. X ; n = 20 X; n=5 Popolazione 8 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Stima della media di una popolazione con σ SCONOSCIUTO tramite X PROMEMORIA Se non conosciamo σ possiamo utilizzare la stima s per valutare σ, però non è più distribuita normalmente. Si dimostra che in questo caso Aiuto! Qui le cose si diventano troppo complicate! Niente paura: esistono della tavole per valutare la probabilità di una variabile di Student! Inoltre se n >30 si comporta come una normale standard. Dipende da n 9 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Tavole della t di Student df\p 0.005 0.0005 1 0.324920 0.40 1.000000 0.25 3.077684 0.10 6.313752 0.05 12.70620 0.025 31.82052 0.01 63.65674 636.6192 2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991 3 0.276671 0.764892 1.637744 2.353363 3.18245 4.54070 5.84091 12.9240 4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103 5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688 6 0.264835 0.717558 1.439756 1.943180 2.44691 3.14267 3.70743 5.9588 7 0.263167 0.711142 1.414924 1.894579 2.36462 2.99795 3.49948 5.4079 8 0.261921 0.706387 1.396815 1.859548 2.30600 2.89646 3.35539 5.0413 9 0.260955 0.702722 1.383029 1.833113 2.26216 2.82144 3.24984 4.7809 10 0.260185 0.699812 1.372184 1.812461 2.22814 2.76377 3.16927 4.5869 11 0.259556 0.697445 1.363430 1.795885 2.20099 2.71808 3.10581 4.4370 12 0.259033 0.695483 1.356217 1.782288 2.17881 2.68100 3.05454 4.3178 13 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208 14 0.258213 0.692417 1.345030 1.761310 2.14479 2.62449 2.97684 4.1405 15 0.257885 0.691197 1.340606 1.753050 2.13145 2.60248 2.94671 4.0728 16 0.257599 0.690132 1.336757 1.745884 2.11991 2.58349 2.92078 4.0150 17 0.257347 0.689195 1.333379 1.739607 2.10982 2.56693 2.89823 3.9651 18 0.257123 0.688364 1.330391 1.734064 2.10092 2.55238 2.87844 3.9216 19 0.256923 0.687621 1.327728 1.729133 2.09302 2.53948 2.86093 3.8834 20 0.256743 0.686954 1.325341 1.724718 2.08596 2.52798 2.84534 3.8495 21 0.256580 0.686352 1.323188 1.720743 2.07961 2.51765 2.83136 3.8193 22 0.256432 0.685805 1.321237 1.717144 2.07387 2.50832 2.81876 3.7921 23 0.256297 0.685306 1.319460 1.713872 2.06866 2.49987 2.80734 3.7676 24 0.256173 0.684850 1.317836 1.710882 2.06390 2.49216 2.79694 3.7454 25 0.256060 0.684430 1.316345 1.708141 2.05954 2.48511 2.78744 3.7251 26 0.255955 0.684043 1.314972 1.705618 2.05553 2.47863 2.77871 3.7066 27 0.255858 0.683685 1.313703 1.703288 2.05183 2.47266 2.77068 3.6896 28 0.255768 0.683353 1.312527 1.701131 2.04841 2.46714 2.76326 3.6739 29 0.255684 0.683044 1.311434 1.699127 2.04523 2.46202 2.75639 3.6594 30 0.255605 0.682756 1.310415 1.697261 2.04227 2.45726 2.75000 3.6460 inf 0.253347 0.674490 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905 Probability Density Function y=student(x;5) 0.500 0.375 0.250 0.125 0.000 -3.50 -1.75 0.00 1.75 3.50 Gradi di libertà : n-1 taglia del campione-1 Anche se la varianza è incognita conosco la distribuzione della media campionaria! Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino 10 Distribuzione della differenza tra due medie campionarie Se entrambi i campioni sono di taglia sufficientemente grande la differenza delle medie campionarie è ancora normale con MEDIA DIFFERENZA TRA LE MEDIE E VARIANZA SOMMA DELLE SINGOLE VARIANZE Esempio : si considerino gli individui di due popolazioni. Nella prima popolazione gli individui hanno avuto delle esperienze che si ritiene possano aver dato luogo a un ritardo mentale mentre nella seconda queste esperienze non si sono verificate. 15 individui di ciascuna popolazione vengono sottoposti a dei test d’intelligenza e si valuta il punteggio medio dei test per gli individui di ciascuna popolazione, ottenendo 92 e 105, rispettivamente. La distribuzione dei punteggi di tali test viene supposta approssimativamente normale con varianza σ2=400. Se l’esperienza negativa non ha conseguenze sul livello intellettivo qual è la probabilità di osservare una differenza pari a quella tra i campioni considerati ( cioè di 13 punti)? Soluzione La probabilità di avere una differenza di punteggi pari a -13 se le due popolazioni hanno la stessa media è molto piccola: 0.0375 Cosa possiamo concludere in questo caso? 11 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Stime di proporzioni p PROMEMORIA: la legge dei grandi numeri ci garantisce che per n grande la frequenza relativa dei successi tende alla probabilità di successo. Possiamo usare , con per stimare p. 12 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Distribuzione della proporzione campionaria = Frequenza con cui si è osservato il risultato desiderato • Tende al valore della probabilità del risultato desiderato per la legge dei grandi numeri • E’ la somma di n variabili di Bernoulli di parametro p divisa per n • Per n grande possiamo applicare il teorema del limite centrale per variabili binomiali: Esempio: In una certa popolazione la probabilità di non vedere i colori è 0.08. Si selezionano a caso 150 individui, con quale probabilità la proporzione di individui incapaci di vedere i colori nel campione considerato è maggiore o uguale di 0.15? Soluzione: (risultato migliorabile con la correzione di continuità) 13 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Distribuzione della differenza tra due proporzioni ∼ N(0,1) Se entrambi i campioni sono sufficientemente grandi Esempio In una certa popolazione di liceali si sa che il 10% dei ragazzi è obesa. Se la stessa proporzione vale per le ragazze, con quale probabilità in un campione di 250 ragazzi e 200 ragazze si osserva > 0.06? Soluzione: 14 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Stime della varianza PROMEMORIA: una stima della varianza può venir effettuata utilizzando lo stimatore Problema: com’è distribuita questa variabile intorno a σ2 ? Se la popolazione da cui stiamo campionando è distribuita normalmente e il campione è di taglia n la variabile È distribuita secondo la distribuzione del Chi Quadro (tabulata) con (n-1) gradi di libertà. 15 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Tavole del Chi Quadro Probability Density Function y=chi2(x;8) 0.175 0.131 0.087 0.044 0.000 0.00 6.25 12.50 18.75 25.00 Esempio: abbiamo un campione di taglia 11 estratto da una popolazione normale. Utilizzando la tavola abbiamo: Attenzione: questa distribuzione ci servirà anche in altre occasioni! 16 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Stimatori Sembra facile adattare i dati a una distribuzione teorica! 17 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Metodi per determinare uno stimatore • Metodo dei momenti • Metodo della massima verosimiglianza • ……. Metodi diversi possono fornire stimatori diversi Occorreranno dei criteri per confrontare i diversi stimatori 18 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Metodo dei momenti Criterio: 1. i momenti della distribuzione da cui campioniamo possono venir espressi in funzione dei parametri incogniti di tale distribuzione 2. I momenti possono venir stimati utilizzando il campione Uguagliamo i momenti campionari ai momenti teorici scrivendo un numero di equazioni uguale al numero di parametri che vogliamo stimare Momenti teorici Momenti empirici Ho un problema: in questo modo gli stimatori non sono univocamente definiti! Attenzione: talvolta i sistemi risultanti sono instabili Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino 19 Esempi Cosa capita se invece del momento primo usiamo il momento secondo? Se invece dei momenti assoluti usassi i momenti centrali otterrei gli stessi stimatori? Come si trasformerebbe il metodo dei momenti se invece d’essere interessati alla stima di θ fossimo interessati alla stima di τ(θ)? Abbiamo 2 alternative: 20 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Metodo della massima verosimiglianza CRITERIO: se abbiamo raccolto un determinato campione ci aspettiamo che il suo verificarsi corrisponda a una situazione molto probabile. E’ la quarta volta consecutiva che Mario ha una scala reale: non mi piace sospettare della gente ma temo proprio che stia barando! Questa mano mi conviene perdere:diversamente capiranno che sto imbrogliando Siamo molto poco propensi a credere che l’evento che stiamo osservando sia UN evento molto raro che si è verificato eccezionalmente! Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino 21 Esempio In un’urna ci sono palline nere e palline bianche, il rapporto tra il numero di palline dei due colori è 3/1, non sappiamo però se a favore delle bianche o delle rosse. Estraiamo 3 palline, con reimbussolamento, per decidere se ci sono più palline nere o bianche (cioè se p=0.25 o 0.75) Stimatore di massima verosimiglianza: 22 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino Esercizi 1 • Un’estesa analisi rivela che le altezze degli uomini di un certo paese sono distribuite normalmente con media h=1.75 m. e deviazione standard σ =0.05 m. – In un campione casuale di 1000 uomini con quale probabilità ci sono più di 100 uomini alti tra 1.75 e 1.80 m? – In un campione casuale di 1000 uomini quanti uomini vi attendete con un’altezza tra 1.80 e 1.90 m.? • Si supponga che i pesi di 5000 studenti maschi di una università ci siano distribuiti normalmente con media 68 Kg e deviazione standard 3 Kg. Se si estrae un campione di 200 studenti come è distribuita la media campionaria? 23 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino • Un ascensore ha una portata massima di 1000 Kg e una capacità massima di 10 persone. Se i pesi di tutte le persone che usano l’ascensore sono distribuiti normalmente con una media 90 Kg e deviazione standard di 15 Kg, qual è la probabilità che un gruppo di 10 persone ecceda il limite di portata dell’ascensore? • Qual è la probabilità che dei primi 1000 bambini nati nel nuovo anno più di 400 siano maschi? (si supponga che sia equiprobabile la nascita di un maschio o di una femmina) • In un campione di 16 osservazioni da una popolazione normale con media 150 e varianza 256 determinare – P(X < 160) – P(X > 140) 24 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino • In una ricerca sullo stato di salute di due popolazioni rivela che nella popolazione A il 55% dei soggetti non hanno malattie cardiovascolari, tale percentuale per la popolazione B scende al 35%. Si sceglie un campione casuale di 120 individui dalla prima popolazione e di 130 individui dalla seconda.Con quale probabilità la differenza tra le proporzioni osservate risulta compresa tra 0.3 e 0.4? • Si siano misurate 10 lunghezze del femore di un neonato ottenendo x=10 cm con deviazione standard campionaria s = 2 cm. Si determini il valore t per cui • Si ripeta l’esercizio precedente supponendo di sapere che la deviazione standard della popolazione in esame è σ=2 cm. 25 Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino