Distribuzioni discrete di Probabilità

Distribuzioni discrete di Probabilità
Ma la biologia di laboratorio che cosa ha a che fare con le distribuzioni discrete di
probabilità?
Consideriamo questo gedankenexperiment:
●
in una fiasca per coltura cellulare abbiamo una popolazione eterogenea di cellule
●
solo le cellule di un certo tipo (es. le cellule T) possono proliferare se stimolate
●
tutte le altre cellule non proliferano affatto
●
non ci sono modi per misurare direttamente le cellule T
Il problema è: come posso stimare quante cellule del tipo T ci sono nella popolazione
cellulare?
es. reale: stimare quanti linfociti T attivi ci sono nella milza di un topo dopo una immunizzazione...
Distribuzioni discrete di Probabilità
cellule T
seminare le cellule
altre cellule
aggiungere lo stimolo
Proliferazione: -
-
-
+
-
-
-
-
-
diluire il campione
seminare le cellule
aggiungere lo stimolo
Proliferazione: -
Distribuzioni discrete di Probabilità
Qual è la probabilità di ottenere pozzetti in cui le cellule
proliferano?
Se distribuiamo a caso e indipendentemente c cellule
in w pozzetti (da eng. wells) qual è la probabilità che un
dato pozzetto contenga esattamente un certo numero
di cellule?
NB assunzioni: siamo in grado di distribuire le cellule nei pozzetti in modo casuale e in
modo tale che nessuna cellula influenzi il destino dell'altra (ad es. NON ci devono essere
aggregati cellulari)
variabili:
(da: I.Lefkovits and H.Waldmann, Limiting dilution analysis of cells in the immune system,
Cambridge University Press, 1979)
Distribuzioni discrete di Probabilità
prendiamo a caso un pozzetto tra i w disponibili. Qual è la probabilità che una
data cellula finisca esattamente in quel pozzetto?
poiché O una cellula finisce nel pozzetto O lo manca (tertium non datur), allora:
dunque la probabilità che la cellula manchi il dato pozzetto è:
ma questo vale anche per la seconda, la terza, la quarta,..., la c-esima cellula.
Poiché ogni cellula si comporta in modo indipendente da tutte le altre:
Distribuzioni discrete di Probabilità
Dunque, la probabilità P0 che tutte le cellule manchino un pozzetto è:
Qual è la probabilità che una data cellula entri nel pozzetto e che tutte le altre lo
manchino?
Ma questo vale anche per la seconda cellula, la terza, la...., c-esima cellula.
Dunque:
Distribuzioni discrete di Probabilità
Qual è ora la probabilità che due cellule entrino nel pozzetto e che tutte le altre lo
manchino?
Ma questo deve valere per tutte le possibili coppie di cellule:
1
2
3
...
c
1
-
+
+
...
+
2
-
-
+
...
+
3
-
-
-
...
+
...
-
-
-
...
+
c
-
-
-
-
-
e dunque:
Distribuzioni discrete di Probabilità
Allo stesso modo calcoliamo la probabilità che tre cellule entrino in una dato pozzetto,
che tutte le altre lo manchino, ed estendiamo questo conto a tutte le possibili terne di
cellule (senza ripetizioni):
e infine calcoliamo la probabilità per un numero qualsiasi r di cellule:
Ancora un passo (trucchetto): moltiplico e divido per la quantità
Distribuzioni discrete di Probabilità
Distribuzione BINOMIALE
probabilità di ottenere k successi in n prove indipendenti (del tipo vero o falso) e in
cui la probabilità per ogni singolo successo è p
Distribuzioni discrete di Probabilità
Distribuzione BINOMIALE in biologia?
es. suddivisione degli organelli cellulari alla mitosi!
Distribuzioni discrete di Probabilità
es.
Distribuzioni discrete di Probabilità
Distribuzione BINOMIALE
●
distribuzione discreta di probabilità
●
parametri p ed n
●
media = np
●
varianza = np(1-p)
probabilità di ottenere k successi in n prove
indipendenti (del tipo vero o falso) e in cui la
probabilità per ogni singolo successo è p
Distribuzioni discrete di Probabilità
...il problema pratico con la distribuzione binomiale sta nel calcolo dei fattoriali
Distribuzioni discrete di Probabilità
riprendiamo questa equazione:
e consideriamo valori di c e w molto grandi
ora, se
e dunque:
ma se:
Dunque:
dove u = n. cell/pozzetto è un numero finito.
Distribuzioni discrete di Probabilità
distribuzione di Poisson
Distribuzioni discrete di Probabilità
distribuzione di Poisson
es.: semino le cellule alla densità di 5 cellule/pozzetto.
6.7 pozzetti su 1000 conterranno r=0 cellule
3.4 pozzetti su 100 conterranno r=1 cellule
8.4 pozzetti su 100
conterranno r=2 cellule
Distribuzioni discrete di Probabilità
distribuzione di Poisson
caso particolare: semino le cellule alla densità di 1 cellula/pozzetto.
il 37% dei pozzetti NON conterrà cellule
notiamo che:
dunque:
1)semino le cellule a diversa densità u in tanti pozzetti
2)conto quanti pozzetti non presentano cellule
3)grafico in modo opportuno il risultato
4)a livello del 37% SO che 1 su u cellule seminate prolifera!
Dunque ho risolto il problema iniziale!
Distribuzioni discrete di Probabilità
(a real experiment from: I.Lefkovits and H.Waldmann,
Limiting dilution analysis of cells in the immune system,
Cambridge University Press, 1979)
...a P0=0.37 ci attendiamo che 1
sola cellula proliferi in un dato
pozzetto. Ma per arrivare a
questo risultato ho dovuto
seminare ~38.000 cellule (della
popolazione eterogenea di
partenza. Dunque 1/38.000
cellule è la frequenza di cellule
proliferanti (le cellule T) nella
popolazione d'origine.
Distribuzioni discrete di Probabilità
Distribuzioni discrete di Probabilità
(0.65/15.9=0.04)
~1/6
~1/153
Distribuzioni discrete di Probabilità
distribuzione di Poisson
es. a che densità cellulare conviene seminare le cellule per sperare di averne solo 1 in
un pozzetto ed ottenere così un clone cellulare?
u=0.1
u=0.3
u=1
P0
0.90
0.74
0.37
P1
0.09
0.22
0.37
P2
0.0045
0.033
0.18
P3
0.00015
0.0033
0.06
Distribuzioni discrete di Probabilità
distribuzione di Poisson
●
●
●
limite della distribuzione binomiale
estremamente comune. Ad esempio permette di calcolare la probabilità che
si verifichino n eventi (indipendenti) in un dato intervallo di spazio o di
tempo, sapendo che in media se ne verificano λ nello stesso intervallo (es.
telefonate ad un call center)
legge degli eventi rari
Distribuzioni continue di Probabilità
calcoliamo
per:
osserviamo che la distribuzione diventa sempre
più “fitta”
Distribuzioni continue di Probabilità
linea rossa (x=r):
NB eventi NON più rari!!!
La distribuzione di Poisson viene approssimata da una distribuzione continua
detta normale (o di Gauss) con
Distribuzioni continue di Probabilità
Distribuzione normale:
●
distribuzione continua e simmetrica attorno alla media
●
due parametri: media μ e varianza σ2
●
eventi NON rari ma molteplici, casuali ed indipendenti
●
somma di variabili aleatorie gaussiane è gaussiana
x1+x2+x3=xtot
Distribuzioni continue di Probabilità
Il passaggio al continuo NON è indolore:
●
●
distribuzioni discrete: la variabile aleatoria assume solo un dato valore di
probabilità
distribuzioni continue: la variabile aleatoria assume un continuum di valori di
probabilità in un dato intervallo (bin). Dunque la probabilità di una variabile
continua è definita solo come somma di tutti i valori di quell'intervallo
es. caso normale:
Distribuzioni continue di Probabilità
Dunque, per calcolare la probabilità di un
evento nel caso continuo ho bisogno di:
●
●
la PDF che descrive la distribuzione della
variabile aleatoria in esame
calcolare (correttamente) integrali
Distribuzione normale
es.:
Distribuzione normale
Distribuzione normale
Distribuzione normale
dunque la probabilità di osservare un evento
è:
dunque un evento MOLTO raro e pertanto ragionevolmente NON dovuto
al caso. Tale evento può dunque essere un segnale scientificamente
interessante
Distribuzione normale
dove:
Il problema, pertanto, è riuscire a calcolare l'integrale. Ci sono almeno (più di) 3
modi:
●
●
●
metodo furbo: (imparare ad) usare un software in grado di farlo
metodo più furbo: normalizzare la PDF gaussiana e fare riferimento a opportune
tabelle
metodo gnucco: usare il PC per quello che è (una volta tanto), ovvero un
calcolatore
Calcolo aree: metodo gnucco
Calcolo aree: metodo gnucco
●
●
●
da usare con attenzione
occhio all'intervallo!
preferire forza bruta
Calcolo aree: metodo più furbo
x = {32.9124, 29.8362, 28.0705, 21.1499, 22.9767, 20.5991, 29.3528,
30.9007, 35.2792, 33.6456,.....}
dove Z è una variabile
aleatoria con distribuzione
normale standard
Calcolo aree: metodo più furbo
Calcolo aree: metodo più furbo
es.: supponiamo che l'altezza degli italiani sia distribuita normalmente, e che i valori
di media e deviazione standard siano rispettivamente
(o in alternativa che la statura media sia di
).
1. Qual è la probabilità di trovare italiani più alti di 189.6 cm?
2. Qual è la probabilità di trovare italiani più bassi di 150.4 cm?
3. Qual è la probabilità di trovare italiani più alti di 189.6 cm O bassi di 150.4 cm?
Caso 1.: una coda
Calcolo aree: metodo più furbo
Caso 2.: una coda
NB si usa la simmetria della distribuzione normale!
Calcolo aree: metodo più furbo
Caso 3.: due code
Calcolo aree: metodo più furbo
si noti che:
dunque, un generico valore
può essere interpretato come: il dato di partenza dista dalla media
Quindi, se vogliamo che un dato si discosti dalla media di, ad esempio,
allora deve essere:
e questo dato viene ottenuto con probabilità
Verifica ipotesi
●
●
●
calcolare la distribuzione (PDF) sotto l'ipotesi che la variabile che
stiamo studiando sia soggetta solo al caso (variabile aleatoria)
calcolare la probabilità di uscita della variabile
falsificare o meno l'ipotesi: la variabile NON è o È soggetta al solo
caso
Ma:
●
non sempre (praticamente mai) possiamo calcolare la PDF
●
ciò significa che non sempre (praticamente mai) abbiamo i valori di
●
dunque dobbiamo stimare in modo furbo questi valori a partire dalle osservazioni
inferenza statistica
e
This work is licensed under a Creative Commons AttributionNonCommercial 4.0 International License.
see: http://creativecommons.org/licenses/by-nc/4.0/
Roberto Chignola
Università di Verona
[email protected]