Distribuzioni discrete di Probabilità Ma la biologia di laboratorio che cosa ha a che fare con le distribuzioni discrete di probabilità? Consideriamo questo gedankenexperiment: ● in una fiasca per coltura cellulare abbiamo una popolazione eterogenea di cellule ● solo le cellule di un certo tipo (es. le cellule T) possono proliferare se stimolate ● tutte le altre cellule non proliferano affatto ● non ci sono modi per misurare direttamente le cellule T Il problema è: come posso stimare quante cellule del tipo T ci sono nella popolazione cellulare? es. reale: stimare quanti linfociti T attivi ci sono nella milza di un topo dopo una immunizzazione... Distribuzioni discrete di Probabilità cellule T seminare le cellule altre cellule aggiungere lo stimolo Proliferazione: - - - + - - - - - diluire il campione seminare le cellule aggiungere lo stimolo Proliferazione: - Distribuzioni discrete di Probabilità Qual è la probabilità di ottenere pozzetti in cui le cellule proliferano? Se distribuiamo a caso e indipendentemente c cellule in w pozzetti (da eng. wells) qual è la probabilità che un dato pozzetto contenga esattamente un certo numero di cellule? NB assunzioni: siamo in grado di distribuire le cellule nei pozzetti in modo casuale e in modo tale che nessuna cellula influenzi il destino dell'altra (ad es. NON ci devono essere aggregati cellulari) variabili: (da: I.Lefkovits and H.Waldmann, Limiting dilution analysis of cells in the immune system, Cambridge University Press, 1979) Distribuzioni discrete di Probabilità prendiamo a caso un pozzetto tra i w disponibili. Qual è la probabilità che una data cellula finisca esattamente in quel pozzetto? poiché O una cellula finisce nel pozzetto O lo manca (tertium non datur), allora: dunque la probabilità che la cellula manchi il dato pozzetto è: ma questo vale anche per la seconda, la terza, la quarta,..., la c-esima cellula. Poiché ogni cellula si comporta in modo indipendente da tutte le altre: Distribuzioni discrete di Probabilità Dunque, la probabilità P0 che tutte le cellule manchino un pozzetto è: Qual è la probabilità che una data cellula entri nel pozzetto e che tutte le altre lo manchino? Ma questo vale anche per la seconda cellula, la terza, la...., c-esima cellula. Dunque: Distribuzioni discrete di Probabilità Qual è ora la probabilità che due cellule entrino nel pozzetto e che tutte le altre lo manchino? Ma questo deve valere per tutte le possibili coppie di cellule: 1 2 3 ... c 1 - + + ... + 2 - - + ... + 3 - - - ... + ... - - - ... + c - - - - - e dunque: Distribuzioni discrete di Probabilità Allo stesso modo calcoliamo la probabilità che tre cellule entrino in una dato pozzetto, che tutte le altre lo manchino, ed estendiamo questo conto a tutte le possibili terne di cellule (senza ripetizioni): e infine calcoliamo la probabilità per un numero qualsiasi r di cellule: Ancora un passo (trucchetto): moltiplico e divido per la quantità Distribuzioni discrete di Probabilità Distribuzione BINOMIALE probabilità di ottenere k successi in n prove indipendenti (del tipo vero o falso) e in cui la probabilità per ogni singolo successo è p Distribuzioni discrete di Probabilità Distribuzione BINOMIALE in biologia? es. suddivisione degli organelli cellulari alla mitosi! Distribuzioni discrete di Probabilità es. Distribuzioni discrete di Probabilità Distribuzione BINOMIALE ● distribuzione discreta di probabilità ● parametri p ed n ● media = np ● varianza = np(1-p) probabilità di ottenere k successi in n prove indipendenti (del tipo vero o falso) e in cui la probabilità per ogni singolo successo è p Distribuzioni discrete di Probabilità ...il problema pratico con la distribuzione binomiale sta nel calcolo dei fattoriali Distribuzioni discrete di Probabilità riprendiamo questa equazione: e consideriamo valori di c e w molto grandi ora, se e dunque: ma se: Dunque: dove u = n. cell/pozzetto è un numero finito. Distribuzioni discrete di Probabilità distribuzione di Poisson Distribuzioni discrete di Probabilità distribuzione di Poisson es.: semino le cellule alla densità di 5 cellule/pozzetto. 6.7 pozzetti su 1000 conterranno r=0 cellule 3.4 pozzetti su 100 conterranno r=1 cellule 8.4 pozzetti su 100 conterranno r=2 cellule Distribuzioni discrete di Probabilità distribuzione di Poisson caso particolare: semino le cellule alla densità di 1 cellula/pozzetto. il 37% dei pozzetti NON conterrà cellule notiamo che: dunque: 1)semino le cellule a diversa densità u in tanti pozzetti 2)conto quanti pozzetti non presentano cellule 3)grafico in modo opportuno il risultato 4)a livello del 37% SO che 1 su u cellule seminate prolifera! Dunque ho risolto il problema iniziale! Distribuzioni discrete di Probabilità (a real experiment from: I.Lefkovits and H.Waldmann, Limiting dilution analysis of cells in the immune system, Cambridge University Press, 1979) ...a P0=0.37 ci attendiamo che 1 sola cellula proliferi in un dato pozzetto. Ma per arrivare a questo risultato ho dovuto seminare ~38.000 cellule (della popolazione eterogenea di partenza. Dunque 1/38.000 cellule è la frequenza di cellule proliferanti (le cellule T) nella popolazione d'origine. Distribuzioni discrete di Probabilità Distribuzioni discrete di Probabilità (0.65/15.9=0.04) ~1/6 ~1/153 Distribuzioni discrete di Probabilità distribuzione di Poisson es. a che densità cellulare conviene seminare le cellule per sperare di averne solo 1 in un pozzetto ed ottenere così un clone cellulare? u=0.1 u=0.3 u=1 P0 0.90 0.74 0.37 P1 0.09 0.22 0.37 P2 0.0045 0.033 0.18 P3 0.00015 0.0033 0.06 Distribuzioni discrete di Probabilità distribuzione di Poisson ● ● ● limite della distribuzione binomiale estremamente comune. Ad esempio permette di calcolare la probabilità che si verifichino n eventi (indipendenti) in un dato intervallo di spazio o di tempo, sapendo che in media se ne verificano λ nello stesso intervallo (es. telefonate ad un call center) legge degli eventi rari Distribuzioni continue di Probabilità calcoliamo per: osserviamo che la distribuzione diventa sempre più “fitta” Distribuzioni continue di Probabilità linea rossa (x=r): NB eventi NON più rari!!! La distribuzione di Poisson viene approssimata da una distribuzione continua detta normale (o di Gauss) con Distribuzioni continue di Probabilità Distribuzione normale: ● distribuzione continua e simmetrica attorno alla media ● due parametri: media μ e varianza σ2 ● eventi NON rari ma molteplici, casuali ed indipendenti ● somma di variabili aleatorie gaussiane è gaussiana x1+x2+x3=xtot Distribuzioni continue di Probabilità Il passaggio al continuo NON è indolore: ● ● distribuzioni discrete: la variabile aleatoria assume solo un dato valore di probabilità distribuzioni continue: la variabile aleatoria assume un continuum di valori di probabilità in un dato intervallo (bin). Dunque la probabilità di una variabile continua è definita solo come somma di tutti i valori di quell'intervallo es. caso normale: Distribuzioni continue di Probabilità Dunque, per calcolare la probabilità di un evento nel caso continuo ho bisogno di: ● ● la PDF che descrive la distribuzione della variabile aleatoria in esame calcolare (correttamente) integrali Distribuzione normale es.: Distribuzione normale Distribuzione normale Distribuzione normale dunque la probabilità di osservare un evento è: dunque un evento MOLTO raro e pertanto ragionevolmente NON dovuto al caso. Tale evento può dunque essere un segnale scientificamente interessante Distribuzione normale dove: Il problema, pertanto, è riuscire a calcolare l'integrale. Ci sono almeno (più di) 3 modi: ● ● ● metodo furbo: (imparare ad) usare un software in grado di farlo metodo più furbo: normalizzare la PDF gaussiana e fare riferimento a opportune tabelle metodo gnucco: usare il PC per quello che è (una volta tanto), ovvero un calcolatore Calcolo aree: metodo gnucco Calcolo aree: metodo gnucco ● ● ● da usare con attenzione occhio all'intervallo! preferire forza bruta Calcolo aree: metodo più furbo x = {32.9124, 29.8362, 28.0705, 21.1499, 22.9767, 20.5991, 29.3528, 30.9007, 35.2792, 33.6456,.....} dove Z è una variabile aleatoria con distribuzione normale standard Calcolo aree: metodo più furbo Calcolo aree: metodo più furbo es.: supponiamo che l'altezza degli italiani sia distribuita normalmente, e che i valori di media e deviazione standard siano rispettivamente (o in alternativa che la statura media sia di ). 1. Qual è la probabilità di trovare italiani più alti di 189.6 cm? 2. Qual è la probabilità di trovare italiani più bassi di 150.4 cm? 3. Qual è la probabilità di trovare italiani più alti di 189.6 cm O bassi di 150.4 cm? Caso 1.: una coda Calcolo aree: metodo più furbo Caso 2.: una coda NB si usa la simmetria della distribuzione normale! Calcolo aree: metodo più furbo Caso 3.: due code Calcolo aree: metodo più furbo si noti che: dunque, un generico valore può essere interpretato come: il dato di partenza dista dalla media Quindi, se vogliamo che un dato si discosti dalla media di, ad esempio, allora deve essere: e questo dato viene ottenuto con probabilità Verifica ipotesi ● ● ● calcolare la distribuzione (PDF) sotto l'ipotesi che la variabile che stiamo studiando sia soggetta solo al caso (variabile aleatoria) calcolare la probabilità di uscita della variabile falsificare o meno l'ipotesi: la variabile NON è o È soggetta al solo caso Ma: ● non sempre (praticamente mai) possiamo calcolare la PDF ● ciò significa che non sempre (praticamente mai) abbiamo i valori di ● dunque dobbiamo stimare in modo furbo questi valori a partire dalle osservazioni inferenza statistica e This work is licensed under a Creative Commons AttributionNonCommercial 4.0 International License. see: http://creativecommons.org/licenses/by-nc/4.0/ Roberto Chignola Università di Verona [email protected]