Cenni di calcolo delle probabilità OBIETTIVO: capire i concetti di base che serviranno alla statistica inferenziale Allora non impariamo a formulare modelli probabilistici! ARGOMENTI TRATTATI: • Assiomi del calcolo delle probabilità • Probabilità di eventi e variabili aleatorie Lezione 2 • Distribuzioni binomiale, multinomiale, ipergeometrica, di Poisson, • Media, varianza, momenti di una variabile casuale • Distribuzioni uniforme, esponenziale, normale Lezione 3 • Legge dei grandi numeri e suo utilizzo • Teorema del limite centrale e suo utilizzo 1 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Calcolo delle probabilità Fenomeno deterministico Determino la legge che lo regola PREVISIONI DETERMINISTICHE Fenomeno casuale Studio le regolarità del fenomeno PREVISIONI STOCASTICHE Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino 2 Probabilità: un metro di misura per fenomeni casuali Nomenclatura: eventi, spazio degli eventi, eventi incompatibili Esempio: Mi aspetto che la capra abbia il vello a macchie o che l’abbia nero? Come posso “misurare” la facilità con cui si produce un evento o l’altro? Misuro la probabilità di ciascun evento 3 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Probabilità: gli assiomi • La probabilità dell’evento certo vale1 • La probabilità di un qualunque evento è sempre compresa tra 0 e 1 • La probabilità dell’unione di due eventi tra loro incompatibili è uguale alla somma delle probabilità dei singoli eventi D’accordo, la probabilità gode di queste belle proprietà, ma come la calcolo per sapere il colore del vello della mia capra? 4 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Probabilità: definizioni operative Definizione classica: rapporto tra il numero di casi favorevoli e numero di casi possibili Rispetta gli assiomi e... per le capre funziona (se ho studiato genetica!) Esempio: pensiamo ancora alle capre ma… e se non conoscessimo le leggi dell’ereditarietà? La definizione classica diviene inutilizzabile Definizione frequentista: rapporto tra il numero di volte in cui si è verificato l’evento e il numero di prove fatte Avremo bisogno di far fare molti figli alle nostre capre! 5 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esempio: ancora le capre -Semplifichiamo: La probabilità che un figlio sia nero è 1/2 e che sia a macchie è 1-1/2=1/2) Supponiamo che le nostre capre abbiano 3 figli, gli eventi elementari sono: Tutti gli 8 eventi sono equiprobabili! ( nnn ) P(nnn)=1/8 Con quale probabilità 2 capretti ( nnm) P(nnm)=1/8 saranno neri e uno sarà a macchie? ( nmn ) P(nmn)=1/8 P(mnn)=1/8 P(2 neri e 1 a chiazze)= P(nnm)+ P(nmn)+P(mnn)=3/8 ( mnn ) ( mnm ) =1/8 =1/8 ( mmn ) E se la probabilità che un figlio =1/8 ( nmm ) =1/8 sia nero fosse 3/4, con quale ( mmm ) probabilità ci saranno 2 capretti neri e uno a macchie? 6 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Probabilità di combinazioni di eventi Con quale probabilità dei 3 capretti meno di due saranno a macchie? ( nnn ) ( nnm) ( nmn ) ( mnn ) ( mnm ) ( mmn ) ( nmm ) ( mmm ) P(almeno 2 a chiazze)= P(nmm)+ P(mnm)+P(mmn)+ P(mmm) =1/2 Con quale probabilità il secondo capretto sarà a macchie e il III nero? P(II a chiazze)= P(nmn)+ P(mmn)=1/4 Con quale probabilità si verifica uno tra i due eventi (almeno 2 a chiazze) o (tutti uguali)? P=1/2+1/8=5/8 Se capitano sia A che B scriviamo A∩B Se capita A o B scriviamo A∪B Se gli eventi non sono incompatibili P(A∪B)=P(A)+P(B)-P(A∩B) 7 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Combinazioni di eventi • E and F ( E∩F ) : si verificano sia l’evento E che l’evento F Esempio: E: {L’errore della lunghezza è minore di 0.1 cm} F: {L’errore della temperatura supera 1°} • E or F ( E∪F ): si verifica l’evento E o l’evento F o entrambi Esempio: E: {Mario supera l’esame di CPS} F: {Luigi supera l’esame di CPS} • not E ( E ) : l’evento E non si verifica Diagrammi di Venn F E∪F E E E∩ ∩F E F E 8 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Probabilità condizionata Se sappiamo che il primo capretto è a macchie, con quale probabilità tra i 3 capretti almeno 2 sono a macchie? P(A∩B) P(A|B) = Spazio campione in assenza P(B) di informazioni sul I capretto P(A∩B)= P(A|B)P(B) ( nnn ) Spazio campione avendo informazioni sul I capretto ( nnm) ( nmn ) ( mnn ) ( mnm ) ( mmn ) ( nmm ) ( mmm ) ( mnn ) ( mnm ) ( mmn ) ( mmm ) P(almeno 2 |I a macchie) = P(almeno 2 a macchie|I a macchie)=3/4 P (almeno 2 a macchie e il I è a macchie) P(il I è a macchie) = 3/8 1/2 9 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino = 3/4 Indipendenza Sia A l’evento il primo capretto è a macchie e sia B l’evento il secondo capretto è a macchie, valutare la probabilità P(A|B) ( nnn ) ( nnm) ( nmn ) ( mnn ) ( mnm ) ( mmn ) ( nmm ) ( mmm ) P(A|B) = ( nmn ) ( mmn ) ( nmm ) ( mmm ) 2 1 = 4 2 Sono uguali!! P(A|B)=P(A) 1 P(A) = 2 A e B sono indipendenti Trovate degli esempi di eventi indipendenti 10 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Variabili casuali Lavorare con gli eventi è “faticoso”: conviene contare gli eventi che ci interessano Non posso passare il tempo a guardare se è uscito testa o croce! Associamo dei numeri agli eventi: se possiamo associare a questi numeri le probabilità degli eventi originari diciamo che questi valori sono variabili casuali 11 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Variabili aleatorie Eventi: difficili da utilizzare Preferiamo lavorare con i numeri Variabile aleatoria ℜ S I A 0 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino 1 P 12 Variabili casuali discrete Una variabile casuale X discreta assume diversi valori con probabilità specificate dalla sua funzione di distribuzione X: numero di capretti a macchie ( nnn ) ( nnm) ( nmn ) ( mnn ) ( mnm ) ( mmn ) ( nmm ) ( mmm ) X X P(X) 0 1/8 X 1 3/8 x1 P(x1) 2 3/8 1/8 x2 P(x2) x3 P(x3) … …. 3 Generalizzando xn P(X) P(xn) Posso introdurre media e varianza di una variabile casuale 13 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Variabili aleatorie discrete 1 • Assumono un numero finito o un’infinità nuberabile di valori, Xi =xi i=1,2,...; • Sono completamente descritte quando sia nota la probabilità con cui si può verificare ciascun valore: ` P(Xi =xi) =pi con µ pi=1 i=1 Distribuzione di X • Media e Varianza sono indici riassuntivi delle proprietà di tali variabili ` EX= µ xi pi i=1 ` Var (X)= µ (xi -EX )2pi i=1 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino 14 Media e varianza di una variabile casuale discreta µ = E(X) = m ∑ i=1 x iP(x i) m σ2 = Var(X) = ∑ i=1( x i - µ) 2P(x i) Caratterizzano l’intera popolazione m numero di possibili esiti dell’esperimento n X= ∑X i =1 n V(X) = i n 2 Σ (X X ) i i=1 Caratterizzano il campione n-1 n taglia del campione La media campionaria e la varianza campionaria caratterizzano solo il campione 15 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Statistica Calcolo delle probabilità Media e Varianza EX= µ xi pi Var (X)= µ (xi -EX )2pi Proprietà del modello X = µ Xi n s2 (X) = µ (Xi -X )2 n-1 Proprietà del campione Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino 16 Campione/Modello 17 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Variabili aleatorie discrete • Bernoulli: X= 0 1 P(X=1)=p; P(X=0)=1-p P EX=p Var(X)=p(1-p) 0 1 x Esempi 1. Testa o croce, p=1/2. 2. Capretto con il vello nero/a macchie, p=3/4. 3. Verificarsi o meno di una mutazione genetica p=? 4. Ibrido/non ibrido p=? 18 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Variabili aleatorie Binomiali B(n,p) Numero di successi in n prove INDIPENDENTI 0 • Binomiale: X= 1 . . n Esempi P(X=i)= n i pi(1-p)n-i n! = n(n-1) · · · 3·=2 · 1 i!(n-i)! i(i-1) · · ·2 ·1 · !(n-i) · · ·1 a. Numero di ibridi su n osservazioni; b. Numero di studenti su n che superano l’esame con un voto maggiore di 28. 19 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Coefficiente binomiale Teorema binomiale n (a+b)n = Σ i=0 100 15 Abbiamo bisogno di nuovi mezzi di calcolo! Un foglio più grande potrebbe bastare! n i ai bn-i Triangolo di Pascal 5 3 7 2 20 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Variabili Binomiali: media e varianza Una variabile Y ∼ B(n,p) è la somma di n variabili Xi , i=1,…,n di Bernoulli INDIPENDENTI EY=E X1 + E X2 + …+ E Xn = p+…+p = np La varianza della somma di variabili indipendenti è uguale alla somma delle varianze Var (Y)=Var ( X1 )+ Var ( X2 )+ …+ Var ( Xn )= np(1-p) 21 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Binomiale: esempio Una certa malattia ha un’evoluzione per cui non si conoscono terapie, tuttavia tra le persone colpite il 40% guarisce spontaneamente nell’arco di due mesi. Non conoscendo particolarità della malattia, la possibilità di guarigione nell’arco di due mesi viene vista come puramente casuale. • Con quale probabilità tra 6 persone colpite dalla malattia 2 guariranno spontaneamente nell’arco di due mesi? Qual è il numero medio di guarigioni spontanee? Quanto vale la varianza? • Con quale probabilità nessuno guarirà spontaneamente? Soluzione I. Conta il numero di persone che guariscono spontaneamente Sono uguali! E(N) = 2.4 Var(N)=2.16 Conta il numero di persone che NON guariscono spontaneamente II. Potrei valutare questa probabilità utilizzando la variabile casuale M? 22 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esempio Supponiamo che effettuando una misura vi siano 10 cause di errori casuali indipendenti. Per semplicità, ciascuna di queste cause produca un errore di 0.1 mm. Se con probabilità 1/2 un errore casuale aumenta il valore da noi misurato e con probabilità 1/2 lo diminuisce, qual è la distribuzione del valore misurato. Soluzione Y= {valore misurato}} V= { misura esatta, senza errori } Variabile casuale Quantità deterministica N= {numero di errori di misura che producono un aumento rispetto al valore esatto}} Variabile casuale: Bi(10,1/2) Y= V + n · 0.1 - (10 - n ) · 0.1 23 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Distribuzione Binomiale Bi (5, 0.5) Bi (5, 0.3) Bi (5, 0.7) Bi (6, 0.5) 24 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esercizi 1 Vediamo se questa macchina inquina. Quanto è in media il guadagno della compagnia dopo 10 trivellazioni? Si valuti anche la varianza di tale cifra. Una vettura viene controllata ogni anno. Sia 0.1 la probabilità che abbia una cattiva carburazione e sia 0.9 la probabilità che, in presenza cattiva carburazione i tecnici se ne accorgano imponendo la riparazione. Con quale probabilità la vettura non supera il controllo 3 volte in 8 anni? La probabilità di trovare il petrolio è uguale a 0.1 ogni volta che si effettua una nuova trivellazione Se c’è petrolio la mia compagnia guadagna 1 milione di dollari se non c’è perde 100000 dollari 25 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esercizi 2 • Si lanciano 3 dadi. Con quale probabilità non si ottiene nessun 1? In media quante volte comparirà 2? • Calcolare 6! Calcolare 25!/23! 3 • Calcolare i coefficienti binomiali i i=0,1,2,3 • Quattro bambini vengono vaccinati contro il morbillo. Il vaccino attecchisce con probabilità 0.8, garantendo l’immunità del bambino alla malattia. Con quale probabilità tutti i bambini risultano immunizzati? Se 100 bambini vengono vaccinati, qual è il numero medio di bambini immunizzati? Quanto vale la varianza di tale numero? 26 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esercizi 3 • Nell’esercizio relativo ai bambini vaccinati contro il morbillo, si supponga che se il vaccino non attecchisce il bambino si ammali con probabilità 0.8. Con quale probabilità su 100 bambini vaccinati si riscontrano 4 casi di morbillo? • Una popolazione si compone per il 40% di fumatori. Si sa che il 60% dei fumatori e il 7% dei non fumatori sono affetti da una malattia respiratoria. a. Con quale probabilità un individuo scelto a caso è affetto da questa malattia? B. Con quale probabilità su 15 individui più della metà è affetto dalla malattia respiratoria? 27 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Se oggi mangio una caramella rossa, con quale probabilità domani ne estrarrò una verde? E se invece mi mettessi a dieta e rimettessi la caramella rossa nel recipiente… cambierebbe la probabilità che domani scelga una caramella verde? Attenzione: se mangi la caramella la probabilità per domani dipende dalla scelta di oggi! Non sono quantità INDIPENDENTI! Estrazioni con o senza reimbussolamento Binomiale o ipergeometrica 28 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Distribuzione Ipergeometrica/Binomiale (estrazioni senza/con reimbussolamento) p ∼ r/N = 0.3 S e n z a R e i m b u s s o l a m e n t o P(X=i)= r N-r i n-i N n n P(X=i)= i C o n pi (1-p)n-i Regola pratica: se n/N ≤ 0.05 posso usare la Binomiale al posto Statistica per ladell’Ipergeometrica biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino 29 R e i m b u s s o l a m e n t o Distribuzione multinomiale Ho k palline bianche e j palline nere. Estraggo n palline con reimbussolamento. Numero di palline bianche estratte? Distribuzione Binomiale: Bi(n,p) con p = k/n Ho k palline bianche, j palline nere, i rosse e l verdi. Estraggo n palline con reimbussolamento. Probabilità di trovarne 3 bianche 2 nere, 4 rosse e 1 verde se n=10 30 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Distribuzione di Poisson P(X = i ) = e -λ λi i! i = 0,1,... 31 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Media e Varianza di una variabile di Poisson Potrebbe essere distribuita secondo Poisson: media e varianza sono UGUALI! Il parametro che caratterizza la distribuzione di Poisson è il numero medio di conteggi. 32 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Binomiale/Poisson Legge degli eventi RARI Binomiale Se la probabiltà di un evento in ogni intervallino è piccola e ho molti intervallini posso usare Poisson invece della Binomiale Probabilità di avere i eventi in un intervallo di ampiezza t Poisson Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino 33 Numero di nuovi brevetti registrati da un inventore in un decennio. Segue la distribuzione di Poisson? Quando usare la distribuzione di Poisson? • La probabilità con cui si verifica un nuovo evento NON cambia se conosco QUANDO si è verificato l’evento precedente. • In un intervallo di ampiezza finita può verificarsi un qualunque numero di eventi. (n=0, 1,2, …) • La probabilità che si verifichino due o più eventi in un intervallino infinitesimo è trascurabile (cioè o c’è un evento o non ce n’è nessuno) Numero chiamate a un centralino in un’ora è distribuita secondo Poisson? Numero di guarigioni non imputabili alla cura sono distribuite secondo Poisson? Numero di auto in attesa al semaforo: è distribuita secondo Poisson? 34 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esercizi: conteggio raggi cosmici e somme di variabili Particelle cariche protoni o particelle α • Il numero di raggi cosmici che colpisce una determinata area in un intervallo di tempo fissato segue la distribuzione di Poisson. Giustificare questa affermzione. • Due studenti contano il numero di raggi che colpiscono un contatore Geiger in un minuto ed un terzo conta quelli che lo colpiscono in 10 minuti. Ottengono, rispettivamente, 9, 12 e 120. Questi risultati sono contraddittori ? • Si considerino due variabili X e Y indipendenti distribuite secondo Bernoulli di parametro p. Com’è distribuita la somma X+Y ? Calcolare i valori attesi di X+Y e di X-Y 35 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esercizi 2 • Verificare che se in il numero di raggi cosmici che colpisce un contatore Geiger in un minuto segua la distribuzione di Poisson di parametro λ = 9, il numero di raggi che colpisce il contatore in 5 minuti segue la distribuzione di Poisson di parametro λ = 45. (suggerimento: verificare che la somma di due variabili di Poisson indipendenti è ancora una variabile di Poisson con parametro somma dei parametri) • Uno studente osserva il numero di decadimenti un campione radioattivo in 100 intervalli disgiunti di un minuto ottenendo i seguenti risultati: n. decadimenti ν 0 1 2 3 4 5 6 7 8 9 n. volte osservate 5 19 23 21 14 12 3 2 1 0 – Tracciare un istogramma di questi risultati (utilizzare prima le frequenze assolute e poi le relative) – Tracciare sullo stesso grafico la distribuzione attesa se si pensa che il campione segua una legge di Poisson di parametro λ=3 al minuto. Quale degli istogrammi è prossimo alla distribuzione attesa? 36 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esercizi 3 • Nel corso di 28 giorni un allevatore osserva che le sue galline depongono in media 2.5 uova tra le 10 e le 10:30. – Con quale probabilità in 10 giorni vengono deposte almeno 2 uova nell’orario considerato? – Assumendo che il numero di uova deposto giornalmente in tale orario segua la distribuzione di Poisson, determinare la distribuzione del numero di giorni in cui non vengono deposte uova nell’orario considerato. • La distribuzione di Poisson, come ogni distribuzione, deve ∞ verificare la condizione di normalizzazione Σ P(X=i)=1. i=0 Verificare che tale affermazione è verificata. 37 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Esercizi 4 • Stabilire quale delle seguenti situazioni può venire descritta con un modello binomiale e quale con un modello ipergeometrico: – su un autobus sono presenti 25 persone, di cui 18 occupano un posto a sedere. 5 persone scenderanno alla prossima fermata. Qual è la probabilità che si liberino esattamente due posti a sedere? – Il controllore sale sull’autobus, sia p=0.05 la probabilità che un passeggero non abbia il biglietto. Con quale probabilità il controllore trova due persone prive di biglietto? – Ogni giorno arrivo alla fermata dell’autobus alle ore 8:00. Sia p=0.2 la probabilità che l’autobus arrivi entro 5 minuti. Qual è la probabilità che in un mese (30 giorni) l’autobus non arrivi mai entro 5 minuti? 38 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Spazio degli eventi Ω Insieme di tutti i possibili esiti dell’esperimento Può convenirmi riconoscere eventi elementari ed eventi composti la capra è a macchie: evento elementare la capra è a macchie o è nera: evento composto Se voglio studiare lo spazio campione mi conviene capire quali siano gli eventi elementari che lo compongono 39 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino Eventi Ogni esito possibile di un esperimento costituisce un evento Esempio: guardo il colore del vello di una capra. Eventi possibili: nero, a macchie, nero o a macchie non nero, a macchie o nero non a macchie,…. Vorrei la probabilità di ciascun evento in base alla mia conoscenza sui genitori della capra 40 Statistica per la biologia 1 a.a. 2002-2003 Lauree specialistiche in biologia, Univ. Torino