Biostatistica

Università degli Studi di Pisa
Facoltà di Scienze matematiche fisiche e naturali
Anno Accademico 2011-12
Biostatistica
(SECS-S/02 )
STATISTICA PER LA RICERCA
SPERIMENTALE E
TECNOLOGICA
Incontro 4
17 Ottobre 2011
Probabilità condizionata
• Siano A e B due eventi allora per il teorema delle probabilità
composte si definiscono le probabilità condizionale (vincolate)
P( A  B)
 P( A  B)  P( A / B) P( B)
P( B)
P( A  B)
P( B / A) 
 P( A  B)  P( B / A) P( A)
P( A)
 P( A  B)  P( B / A) P( A)  P( A / B) P( B)
P( A / B) 
Se due eventi sono tra loro indipendenti ,allora si verifica che :
P( A / B)  P( A)
P( B / A)  P( B)
 P( A  B )  P( B / A) P( A)  P( A) P( B)
oppure
 P( A  B )  P( A / B) P( B)  P( A) P( B)
Esempio(Genotipi)
• Si considera la distribuzione dei genotipi AA,Aa,aa in una popolazione di
N=400 piante . Estraendo le piante a caso(processo di randomizzazione ),a
ciascuna di esse compete la stessa probabilità di estrazione. Se quindi ci sono
196 genotipi AA ,168 genotipi Aa e 36 aa,allora le probabilità di estrazione a
caso dei diversi genotipi è:
• P(AA)=196/400=0.49 , P(Aa)=168/400=0.42 e P(aa)=36/400=0.09
• P(AA)+P(Aa)+P(aa)=1
• Supponiamo che l’allele a sia un letale recessivo,si esprime soltanto nella
pianta allo stadio adulto. Allora la distribuzione è valida solo per le piantine
,mentre la probabilità che una pianta sia in vita dopo un certo periodo è data
dalla probabilità dell’evento unione
• P(AA) U P(Aa)=P(AA)+P(Aa) (gli eventi sono disgiunti) .
• Non si può quindi affermare che la probabilità di trovare piante adulte con
genotipo AA sia 0.49 ;per le piante adulte l’insieme degli eventi si è ridotto a
Ω’={AA , Aa} di 364(ovvero 168+196)piante
• P(AA/ Ω’)=196/364=0.53
Teorema di Bayes:Partizione finita ed esaustiva
• Riprendendo il risultato precedente:
P( A  B)  P( A / B) P( B)  P( B / A) P( A)
P( B / A) P( A)
 P( A / B) 
P( B)
• Se dividiamo l’ntero spazio degli eventi in n eventi ‘disgiunti’ tra
loro stiamo creando una partizione finita ed esaustiva dello
spazio A1, A2, A3,……, An, in modo che Ai∩ Aj=Ø con i,j=1….n e i≠j
e A1U A2U…… U An=Ω
Teorema di Bayes(2)
P ( Ai  B )  P ( Ai ) P ( B / Ai ) 
n
n
i 1
i 1
  P ( Ai  B )  P ( Ai ) P ( B / Ai ) P ( B )
P ( B / A) P ( A)
P( A / B) 

P( B)
P ( A) P ( B / A)
n
 P( A ) P( B / A )
i
i 1
 P ( Ai / B ) 
i
P ( Ai ) P ( B / Ai )
n
 P( A ) P( B / A )
i 1
i
i
P(Ai/B) è chiamata probabilità a posteriori ; P(Ai) è la
probabilità a priori dell’evento.

Esempio (Genotipi)(2)
• La probabilità di trovare piante in vita dopo un certo periodo per i vari
genotipi è P(A1)=P(AA)=196/364=0.53 ,
P(A2)=P(Aa)=168/364=0.47.(Partizione finita ed esaustiva)
• Supponiamo che dopo un ulteriore lasso di tempo l’80% delle piante di
genotipo AA(=A1)ed il 50% del genotipo Aa(=A2)sia ancora in vita ,qual è
la probabilità che una pianta in vita(evento B) scelta a caso sia del
genotipo AA(=A1)?
P( B / A1 )  0.80
P( B / A2 )  0.50
P( A1 / B) 
P( B / A1 ) P( A1 )
2
 P( B / A ) P( A )
i 1
i
P( B / A1 ) P( A1 )


P( B / A1 ) P( A1 )  P( B / A2 ) P( A2 )
i
0.80 * 0.53

 0.65
0.80 * 0.53  0.50 * 0.47
Variabili casuali(aleatorie)
• Dato un insieme di eventi elementari Ω={ai},si definisce
variabile casuale una qualunque funzione numerica reale
X(ai)=x .Se X è una funzione reale e x un numero reale fissato
,possiamo definire l’evento A sottoinsieme di Ω, formato da
tutti gli eventi ‘a’ ai quali la funzione X assegna il valore x .
Ax  {ai : X (ai )  x}
P( X  x)  P( x)  P( Ax ) 
 P(a )
ai A
è la probabilità dell’evento Ax ,ovvero la probabilità che la
funzione assuma il valore x.
i
Esempio(Variabile Casuale di Bernoulli)
• A n=100 pazienti viene somministrato un farmaco. Dopo un certo periodo
di trattamento si riscontrano 60 guarigioni : il campione di pazienti si
suddivide quindi in due sottogruppi (A1)i guariti’ e (A2) i ‘non guariti’.
• Se l’evento appartiene ad A1 ,x1 =1.
• Se invece l’evento appartiene ad A2,x2=0
60
P( A1 )  P( X  x1 )  P( x1 ) 
 0.6  p
100
60
P( A2 )  1  P( A1 )  P( X  x2 )  P( x2 )  1 
 0.4  1  p
100
 x2  0 P( x2 )  (1  p)  0.4
X :
P( x1 )  ( p)  0.6
 x1  1
Esempio(VC Bernoulli e Binomiale)
• Se un’epidemia di influenza colpisce il 30% della popolazione la
probabilità di contagio per una singola persona è data da una V.C. di
Bernoulli X~Be(p=0.30):
 x1  1 P( x1 )  0.30
X 
 x2  0 P( x2 )  0.70
Sommando n v.c. Bernoulliane i.i.d. (indipendenti ed identicamente
distribuite )ottengo una nuova variabile che conta il numero di
contagiati!
n
Y   X i  Bin (n, p  0.3)
i 1
Y assume valori compresi tra 0 ed n : fornisce quindila distribuzione di
probabilità che 0,1,2,……n individui siano contagiati
Esempio(v.c. somma)
0.14
0.16
• Lancio due dadi e definisco Y=somma dei punteggi dei dadi .
• Si analizzi la distribuzione di probabilità della V.C Y.
0.10
0.08
0.06
0.04
probabilità
0.12
Il numero dei casi possibile è dato dalle disposizioni con reimissione 62=36;
lo spazio degli eventi di Y è Ω= {2,3,4,…12}.
Y= 2 →(1,1)
P(Y=2)=1/36
Y= 3 →(1,2) (2,1)
P(Y=3)=2/36
Y= 4 →(1,3) (3,1) (2,2)
P(Y=4)=3/36
Y= 5→(1,4) (4,1) (3,2) (2,3)
P(Y=5)=4/36
Y= 6 →(1,5) (5,1) (2,4) (4,2) (3,3)
P(Y=6)=5/36
Y= 7 →(1,6) (6,1) (2,5) (5,2) (3,4) (4,3)
P(Y=7)=6/36
Y= 8 →(2,6) (6,2) (3,5) (5,3) (4,4)
P(Y=8)=5/36
Y= 9 →(3,6) (6,3) (4,5) (5,4)
P(Y=9)=4/36
Y= 10→(4,6) (6,4) (5,5)
P(Y=10)=3/36
Y= 11→(5,6) (6,5)
P(Y=11)=2/36
Y= 12→(6,6)
P(Y=12)=1/36
2
4
6
8
10
12
somma punteggio 2 dadi
Media e varianza di v.c discrete e continue
n
  E ( X )   xi p( xi )
i 1

  E ( X )   xf ( x)dx

Var ( X )  E{[ X  E ( X )]2 }   2
Z  X Y
E ( Z )  E ( X  Y )  E ( X )  E (Y )
Var ( Z )  E{[ Z  E ( Z )]2 }  E{[( X  Y )  E ( X  Y )]2 } 
 E{[ X  E ( X )]2 }  E{[Y  E (Y )]2 }  2 E{[ X  E ( X )][Y  E (Y )]} 
 Var ( X )  Var (Y )  2Cov( X , Y )
Se X e Y sono indipendenti allora Cov(X,Y)=E[X-E(X)]*E[Y-E(Y)]=0,
dato che la somma degli scarti dalla media è nulla.
Esempio:trattamento farmacologico(1)
•
•
•
Si considerano 2 dei n=100 pazienti prima del trattamento
Siano X(prova 1 ) e Y (prova 2 )le v.c. Bernoulliane ‘guarito’e ‘non guarito’ per
ognuno dei pazienti.
Analizzare la distribuzione congiunta delle due prove dato che P(xi,yj) =P(xi)P(yj|xj)
Y→
X
↓
0
1
0
0.4*(39/99) 0.4*(60/99)
0.4
1
0.6(40/99)
0.6(59/99)
0.6
0.4
0.6
1
Esempio:trattamento farmacologico(2)
• E(X)=E(Y)=0.6=p
• Var(X)=Var(Y)=0.24=p(1-p)
• Dalla tabella a doppia entrata può essere ottenuta la variabile aleatoria Z=X+Y che
assume valori 0,1,2 ‘guariti’ :
 P(Z=0)=0.4*(39/99)=0.1576
 P(Z=1)=P[(X=1∩Y=0) U (X=0 ∩Y=1 )]= P(X=1∩Y=0)+P(X=0∩Y=1)
=0.6*(40/99)+0.4*(60/99)=0.4848
 P(Z=2)=0.6*(59/99)
• E(Z)=0.6+0.6=1.2
• Var(Z)=Var(X)+Var(Y)+2Cov(X,Y)=0.24+0.24+2Cov(X,Y)
Z  X Y
Var ( Z )  E{[ Z  E ( Z )]2 }  E[ Z 2 ]  E ( Z ) 2 
 (0  1.2) 2 0.1576  (1  1.2) 2 0.4848  (2  1.2) 2 0.3576  0.4752
(Var(Z) - Var(X) - Var(Y)) 0.4752 - 0.48
Cov(X, Y) 

 -0.0024
2
2
Variabile prodotto W=XY
E (W )  E ( XY )   xi y j P( xi y j )   xi y j P( xi )P( y j | xi ) 
i
j
i
j
 E ( X ) E (Y / X )  E (Y ) E ( X / Y )
Se X e Y sono indipendenti allora E(W)=E(X)E(Y) poiché
E(X/Y)=E(X) o E(Y/X)=E(Y).
Distribuzione campionaria
• Estrazione casuale semplice di un campione di n unità :ad
ogni individuo del campione è assegnata ,in virtù del principio
di randomizzazione , una probabilità pari ad 1/n.
• Estrazione in blocco o con remissione: ogni sequenza ha la
stessa probabilità di essere estratta per ogni altra n-upla di
elementi.
• Se si ipotizza di estrarre tutte le possibili n-uple per la
funzione prescelta(somma,prodotto,media,etc.) ,la
riclassificazione dei valori che assume la funzione dà luogo
alla ‘distribuzione campionaria’
Grazie per l’attenzione