valutazione dell`espressione genica tramite sequenze EST

Introduzione alla bioinformatica
Novembre 2003
Francesco Piva
Istituto di Biologia e Genetica
Università Politecnica delle Marche
Banche dati: raccolta dati, ordinamento, correlare quelli che
trattano i diversi aspetti di uno stesso tema, renderli fruibili in
modo semplice, unificare le banche adti.
Ricerca dei geni in un genoma
Inferire la funzione delle proteine a partire dalla sequenza del gene,
da qui la possibilità di creare nuove proteine con nuove funzioni
Obiettivi della
bioinformatica
Prevedere lo splicing dell’mRNA a partire dalla sequenza
del pre-mRNA, capire l’effetto delle mutazioni
Descrivere la rete genica di una cellula, chi attiva o reprime
chi, da chi si fa attivare o reprimere. Prevedere al computer
l’effetto di uno stimolo esogeno… sapere come compensarlo.
Sapere che stimolo generare per produrre certi effetti
Capire l’evoluzione delle specie
Poter prevedere la ricombinazione nel DNA
Francesco Piva
Ist Biologia e Genetica, Ancona
Risorse umane, formazione, mezzi
database
Teoria dell’informazione, studio
dei linguaggi, ridondanza,
entropia, correlazione…
Metodi statistici
Metodi della
bioinformatica
Reti neurali
Algoritmi matematici: FFT,
Wavelet, ICA, PCA, teoria
delle reti…
…
Data mining
Francesco Piva
Ist Biologia e Genetica, Ancona
Cellule o tessuti
Il trascrittoma: quanti e
quali geni?
cromosoma
mRNA
Quanti e quali geni sono
contenuti in un genoma?
Quali geni sono espressi in un
tessuto?
cDNA
Cloni di cDNA
E in un tessuto patologico?
Sequenziamento
…EST
Francesco Piva
Ist Biologia e Genetica, Ancona
La costruzione del cDNA
5’UTR
ESONE 1
ESONE 2
3’UTR
AAAAAA
mRNA
3’
Le sequenze di
cDNA ottenute
dall’mRNA sono
generalmente
tronche
TTTTTT
TTTTTT
GGGGGG
Rimozione dell’RNA e attacco
di un poly (G) al cDNA
TTTTTT
Francesco Piva
Ist Biologia e Genetica, Ancona
Produzione del cDNA
complementare
Metilazione dei due cDNA
per proteggere i siti di
restrizione
GGGGGG
TTTTTT 5’
CCCCCC
AAAAAA 3’
CH3
Aggiunta di siti di restrizione Eco RI
GAATTC GGGGGG
TTTTTT GAATTC
CTTAAG CCCCCC
AAAAAA CTTAAG
Francesco Piva
Ist Biologia e Genetica, Ancona
GAATTC GGGGGG
TTTTTT GAATTC
CTTAAG CCCCCC
AAAAAA CTTAAG
Digestione con Eco RI
AATTC GGGGGG
TTTTTT G
G CCCCCC
Ligazione del
cDNA nei
plasmidi
AAAAAA CTTAA
vector
Francesco Piva
Ist Biologia e Genetica, Ancona
La potenzialità di una
libreria di cDNA è in
relazione al numero di
inserti
di
cDNA
indipendenti che siamo
riusciti a clonare.
Supponendo di prelevare
un’aliquota di batteri
trasformati, il titolo è
dato dal numero di
colonie per unità di
volume
di
batteri
ricombinanti
Francesco Piva
Ist Biologia e Genetica, Ancona
Come stimare la potenzialità di una libreria di cDNA?
Si potrebbe digerire il DNA plasmidico con enzimi di restrizione e analizzare i
frammenti tagliati
3kb vettore
inserti
I cloni 7, 8, 9 e 13 non sono ricombinanti: quindi 4/16 = 25%
Esempio di una libreria:
Titolo: 100 unità formanti colonia/microlitri
% cloni non ricombinanti: 10%
Volume totale di batteri trasformati: 1 ml
Potenzialità: (100000 cloni totali – 10000 non ricombinanti) = 90000 inserti di cDNA
Calcolo delle probabilità applicato alle librerie di cDNA
Che probabilità abbiamo di trovare il clone A2B che ha frequenza dell’ 1%
(f=0.01) in una libreria di 100 (N=100) cloni?
Dalla formula
ln( 1  P)
N
ln( 1  f )
Ricaviamo P = 63.4%
Quanti cloni devo sequenziare (N = ?) per essere abbastanza sicuro (99% 
P=0.99) di trovare il clone A2B che ha una frequenza dell’1% (f=0.01)?
Dalla stessa formula ricaviamo N = 458
Francesco Piva
Ist Biologia e Genetica, Ancona
Un caso reale
Quanti cloni devo sequenziare per avere il 99% delle probabilità di trovare un
particolare clone di mio interesse?
In una cellula ho circa 500000 molecole di mRNA
quelli più abbondanti sono rappresentati in 10000 – 15000 copie per cellula
f=10000/500000  0.02
quelli mediamente abbondanti in 200 – 500 copie per cellula
f=500/500000  0.001
quelli rari in 1 – 15 per cellula
f=15/500000  0.000002
per gli abbondanti risulta…
per i mediamente abbondanti…
per i rari…
N=230
N=4600
N=155000
Francesco Piva
Ist Biologia e Genetica, Ancona
Metodo di arricchimento
Anziché mettersi a
sequenziare in modo
furioso, si può
cercare di operare
sulla libreria in
modo di aumentare
la probabilità di
trovare il cDNA di
interesse. Questo lo
si può fare in vari
metodi:
Frazionamento in gel
Clonazione per sottrazione
Francesco Piva
Ist Biologia e Genetica, Ancona
Metodo di arricchimento
Per arricchire la libreria del cDNA di interesse si
può
- selezionare in partenza le cellule o i tessuti più
ricchi del trascritto
- rimuovere dalla libreria le sequenze che non
interessano
- indurre o aumentare la trascrizione del
particolare gene con stimoli specifici
Francesco Piva
Ist Biologia e Genetica, Ancona
Frazionamento in gel
Se si sa la
lunghezza del
cDNA che stiamo
cercando, si
possono selezionare
su gel prima di
legarli al vettore
Francesco Piva
Ist Biologia e Genetica, Ancona
Clonazione per sottrazione
Linea cellulare +
Linea cellulare -
Sintesi del cDNA dall’mRNA
mRNA
Eliminazione dell’mRNA
Ibridazione
cDNA non
appaiati
Francesco Piva
Ist Biologia e Genetica, Ancona
mRNA non
appaiati
Recupero del cDNA non appaiato
tramite colonnine di idrossiapatite.
Ottengo solo quello non comune
alle due linee
Normalizzazione delle librerie di cDNA
N° di copie
N° di copie
Al fine di trovare con la stessa probabilità sia le sequenze abbondanti che quelle rare si attua
una normalizzazione delle librerie di cDNA. Per far questo si sfrutta il fatto che i cDNA più
abbondanti, si appaiano o ibridizzano più rapidamente e possono essere rimossi dall’insieme
di cDNA di partenza. In questo modo l’insieme rimanente si svuota delle sequenze più
abbondanti ovvero si arricchisce di quelle più rare.
Tipo di cDNA
Tipo di cDNA
Supponendo di avere il cDNA di 8 geni espressi con intensità diversa, mostriamo il
grafico dell’abbondanza di copie di cDNA prima e dopo la normalizzazione della
libreria
Si perdono le informazioni sul livello di espressione dei geni
Francesco Piva
Ist Biologia e Genetica, Ancona
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
AAAAAAA
Generazione
delle
sequenze
EST:
etichette di
sequenza
espressa
5’ EST
3’ EST
cDNA clone
sequencing primers
Francesco Piva
Ist Biologia e Genetica, Ancona
Scarsa qualità delle sequenze:
errori dovuti ad un sequenziamento automatizzato, senza la supervisione di un
operatore, sequenza a passaggio singolo. Quello che importa è determinare la
presenza di un trascritto non la sua sequenza. In questo modo si perdono le
informazioni sulle mutazioni.
>T27784
g609882 | T27784 CLONE_LIB: Human Endothelial cells. LEN: 337
b.p. FILE gbest3.seq 5-PRIME DEFN: EST16067 Homo sapiens cDNA 5' end
AAGACCCCCGTCTCTTTAAAAATATATATATTTTAAATATACTTAAATATATATTTCTAATATCTTTAAATATA
TATATATATTTNAAAGACCAATTTATGGGAGANTTGCACACAGATGTGAAATGAATGTAATCTAATAGANGCCT
AATCAGCCCACCATGTTCTCCACTGAAAAATCCTCTTTCTTTGGGGTTTTTCTTTCTTTCTTTTTTGATTTTGC
ACTGGACGGTGACGTCAGCCATGTACAGGATCCACAGGGGTGGTGTCAAATGCTATTGAAATTNTGTTGAATTG
TATACTTTTTCACTTTTTGATAATTAACCATGTAAAAAATG
Francesco Piva
Ist Biologia e Genetica, Ancona
Problemi con gli EST
Le sequenze provenienti dallo stesso trascritto vanno raggruppate
‘clustering’
Questa operazione non è banale perchè bisogna tener conto dei seguenti
problemi:
- presenza di polimorfismi, le mie EST potrebbero non allineare con la
sequenza genomica poiché le EST sono del mio organismo, il genomico è di
un organismo diverso da quello che sto studiando
- un gene può avere anche centinaia di varianti di splicing
- i geni paraloghi (fisicamente in posizioni cromosomiche diverse ma con
trascritti quasi identici)
- presenza negli EST di pezzi di vettore plasmidico
- presenza di sequenze genomiche batteriche
- presenza di sequenze ripetute come le Alu
- artefatti dovuti al fatto che due inserti di cDNA entrano in tandem in un
vettore plasmidico e io li leggo come un unico trascritto
In generale questi problemi sono completamente superabili solo quando si
conosce la sequenza genomica della specie che sto studiando
Francesco Piva
Ist Biologia e Genetica, Ancona
cDNA, EST e banche dati
dbEST (pronuncia ‘the best’)
Divisione di GenBank che contiene tutte le sequenze EST, classificate per
specie, tessuto, patologia…
Francesco Piva
Ist Biologia e Genetica, Ancona
dbEST release 103103
Summary by Organism
- October 31, 2003
Number of public entries: 18,971,362
Homo sapiens (human)
Mus musculus + domesticus (mouse)
Rattus sp. (rat)
Triticum aestivum (wheat)
Ciona intestinalis
Gallus gallus (chicken)
Zea mays (maize)
Danio rerio (zebrafish)
Hordeum vulgare + subsp. vulgare (barley)
Xenopus laevis (African clawed frog)
Glycine max (soybean)
Bos taurus (cattle)
Drosophila melanogaster (fruit fly)
Oryza sativa (rice)
Saccharum officinarum
Caenorhabditis elegans (nematode)
Silurana tropicalis
Arabidopsis thaliana (thale cress)
Medicago truncatula (barrel medic)
Sus scrofa (pig)
5,427,521
3,915,334
538,251
500,902
492,488
451,565
383,759
362,445
348,233
344,747
341,578
329,387
261,414
260,890
246,301
215,200
209,240
190,732
187,763
171,920
Francesco Piva
Ist Biologia e Genetica, Ancona
1: BM055437
IDENTIFIERS
. ie94h04.y1 Melton...[gi:16813328]
Inserendo ‘homo
sapiens’ e ‘CFTR’
dbEST Id:
10156577
EST name:
ie94h04.y1
GenBank Acc: BM055437
GenBank gi: 16813328
CLONE INFO
Clone Id:
IMAGE:5674615 (5')
Source:
University of Pennsylvania & Harvard University (HHMI) & Washington University (GSC)
Other ESTs on clone:ie94h04.x1
DNA type:
cDNA
PRIMERS
PolyA Tail:
Unknown
SEQUENCE
GCCTCTTGGGAAGAACTGGATCAGGGAAGAGTACTTTGTTATCAGCTTTTTTGAGACTACTGAACACTGAAGGAGAAATCCAGATCGATGGTGTGTCTTGGGATTCAATA
ACTTTGCAACAGTGGAGGAAAGCCTTTGGAGTGATACCACAGAAAGTATTTATTTTTTCTGGAACATTTAGAAAAAACTTGGATCCCTATGAACAGTGGAGTGATCAAGAA
ATATGGAAAGTTGCAGATGAGGTTGGGCTCAGATCTGTGATAGAACAGTTTCCTGGGAAGCTTGACTTTGTCCTTGTGGATGGGGGCTGTGTCCTAAGCCATGGCCACA
AGCAGTTGATGTGCTTGGCTAGATCTGTTCCAGTAAGGCGAAGATCTTGCTGCTTGATGAACCCAGTGCTCATTTGGATCCAGTAACATACCAAATAATTAGAAGAACTCT
AAAACAAGCATTTGCTGATTGCACAGTAATTCTCTGTGAACACAGGATAGAAGCAATGCTGGAATGCCAACAATTTTTGGTCATAGAAGAGAACAAAGTGCGGCAGTACG
ATTCC
Quality:
High quality sequence stops at base: 429
Entry Created: Nov 8 2001
Last Updated: Mar 12 2002
COMMENTS
Library was constructed by Dr. Douglas Melton DNA sequencing by: Washington University Genome Sequencing Center For information on obtaining a clone
please contact: Juliana Brown ([email protected]) This sequence now available from the IMAGE consortium, for clone orders contact: [email protected]
PUTATIVE ID Assigned by submitter
SW:CFTR_HUMAN P13569 CYSTIC FIBROSIS TRANSMEMBRANE CONDUCTANCE REGULATOR ;
LIBRARY
Lib Name:
Melton Normalized Human Islet 4 N4
Organism:
Homo sapiens
Sex:
Both
Organ:
Pancreas
Tissue type: Islets of Langerhans
Develop. stage: Adult
Lab host:
DH10B
R. Site 1:
Not 1
R. Site 2:
Sal 1
- HIS 1
Francesco Piva
Ist Biologia e Genetica, Ancona
Integrated Molecular Analysis of Genomes and their Expressions
Francesco Piva
Ist Biologia e Genetica, Ancona
Attenzione: la
ricerca è ‘case
sensitive’
quindi se
digitate ‘cftr’
non trova
nulla, si deve
digitare
‘CFTR’
maiuscolo.
Francesco Piva
Ist Biologia e Genetica, Ancona
In IMAGE si trovano due tipi di cluster di geni a seconda che corrispondano a geni già noti
Geni noti in NCBI
Reference Sequence
Full:
Cluster i cui
cloni
allineano
pienamente
con un gene
noto
Predicted full:
Cluster che
contengono una
ORF completa
ma il cui gene è
stato solo
predetto
sperimentalmente
Unknown:
Cloni di cui
non si sa se
rappresentano
l’intera ORF
(perché è stato
determinato un
solo EST del
clone)
Geni non noti in NCBI
Reference Sequence
Partial:
Cloni che non
rappresentano
l’intera ORF
(gli EST al 5’ e
al 3’ non
coprono
l’intera regione
del clone)
Empties:
Cluster già
noto ma di cui
in questa
libreria non ci
sono cloni
Multi-member:
Cluster
contenente più
cloni e il cui
gene non è ne
noto ne predetto
Singletons:
Singolo clone
che non si può
raggruppare
con altri già
noti e contiene
almeno 50
nucleotidi in
cui non ci sono
sequenze
ripetute
Francesco Piva
Ist Biologia e Genetica, Ancona
Identificativo del
cluster, attenzione
perché può cambiare
descrizione
del gene
Numero di cloni che
coprono interamente la
sequenza codificante, se ne
esiste almeno uno allora
abbiamo un ‘full cluster’
E’ possibile vedere gli allineamenti dei cloni che compongono il cluster
o quello delle singole sequenze EST
Francesco Piva
Ist Biologia e Genetica, Ancona
In questa schermata troviamo i dati sui cloni e sugli EST
Il bottone restituisce la descrizione del gene
Francesco Piva
Ist Biologia e Genetica, Ancona
Provenienza del clone
Classificazione
di un clone:
predicted full,
unknown,
partial…
clone
EST
Mammalian
Gene
Collection
Lunghezza del clone:
dimensione
determinata,
se si conosce un solo
EST si indica la
lunghezza minima
Francesco Piva
Ist Biologia e Genetica, Ancona
chi ha
verificato
il clone
Bento Soares
Columbia
University
Lavora alla
creazione di librerie
di EST normalizzate
[email protected]
A volte è ambiguo stabilire a
quale cluster appartiene un
certo clone, il numero a fianco
indica a quanti altri cluster
(oltre a questo) appartiene
questo clone
http://merops.sanger.ac.uk/
Francesco Piva
Ist Biologia e Genetica, Ancona
Si possono fare ricerche per identificativo dell librera, tassuto, stadio di sviluppo…
Francesco Piva
Ist Biologia e Genetica, Ancona
o per patologia…
Francesco Piva
Ist Biologia e Genetica, Ancona
Identificato un gene, mostra la descrizione della proteina
gli allineamenti…
Francesco Piva
Ist Biologia e Genetica, Ancona
Gli omologhi
Francesco Piva
Ist Biologia e Genetica, Ancona
UniGene
Sviluppato da NCBI, contiene i cluster corrispondenti ai geni
Gli EST sono stati filtrati, verificati con MegaBlast, tutti i cluster sono confrontati con i nuovi
EST e verificati settimanalmente
Nota: non fare riferimento agli ID (identificativi) dei cluster poiché possono cambiare
settimanalmente
Francesco Piva
Ist Biologia e Genetica, Ancona
Francesco Piva
Ist Biologia e Genetica, Ancona
Dalla schermata precedente c’è un collegamento a questo sito
Vengono fornite le sequenze di 10 basi (etichette) in ordine di occorrenza decrescente nel
cluster per il gene di interesse
STACK
Sviluppato dal South African National Bioinformatics Institute, contiene i dati sui
cluster, il criterio di allineamento è un po diverso da quello di UniGene perché
inizialmente si verifica se due EST sono parzialmente sovrapposti controllando se
hanno parti in comune
Francesco Piva
Ist Biologia e Genetica, Ancona
TIGR
In generale i dati di clustering differiscono da una banca dati all’altra a causa dei
diversi criteri adottati
Francesco Piva
Ist Biologia e Genetica, Ancona
Francesco Piva
Ist Biologia e Genetica, Ancona
ORF nelle tre fasi,
nel filamento diretto
e inverso
Zona e direzione
in cui allineano
gli EST
Per ciscun EST e
possibile avere
informazioni dal
sito TIGR, da
GenBank
Nucleoride e da
IMAGE
Francesco Piva
Ist Biologia e Genetica, Ancona
Francesco Piva
Ist Biologia e Genetica, Ancona
Noi possiamo allineare i trascritti sul DNA genomico tramite programmi disponibili su
siti internet
Questi programmi tengono conto che
- il trascritto deve essere completamente contenuto nel DNA genomico
- l’appaiamento potrebbe non essere perfetto
- l’appaiamento può essere interrotto da introni
Francesco Piva
Ist Biologia e Genetica, Ancona
Francesco Piva
Ist Biologia e Genetica, Ancona
Francesco Piva
Ist Biologia e Genetica, Ancona
Francesco Piva
Ist Biologia e Genetica, Ancona
Predizione teorica dei geni in un genoma
metodi
Analisi discriminante
lineare e quadratica
Alberi di
decisione
Modelli di Markov
a variabili nascoste
Reti neurali
artificiali
Metodo del
perceptron
Stima degli
esameri
codificanti
Metodo della
matrice di pesi
e del vettore di
pesi
Decomposizione
secondo le
direzioni di
massima
dipendenza
Francesco Piva
Ist Biologia e Genetica, Ancona
Analisi discriminante lineare e quadratica
L’obiettivo di questo metodo è:
Identificare le variabili e le
relazioni tra di esse che
permettono di differenziare
due o più gruppi di dati
Classificare nuovi
casi nei gruppi
ricavati (predittività)
lineare
quadratico
Concentrazione di A
Concentrazione di A
Es: distinguere gli individui sani e
malati in base alla misura della
concentrazione di due enzimi.
Con il metodo dei minimi quadrati si
minimizza l’errore di classificazione
e si ottiene una relazione lineare tra
le due variabili
Nel caso del riconoscimento degli
esoni in una sequenza di pre-mRNA,
come variabili si sceglie la frequenza
di certe triplette nei siti di splicing in 5’
e in 3’.
Francesco Piva
Ist Biologia e Genetica, Ancona
Modelli di Markov a variabili nascoste
Un sistema viene descritto da una successione di stati discreti e dalla probabilità di transizione da
uno stato all’altro
Data una sequenza esonica:
…catga…
0,36
A
C
A
T
G
0,15
0,32
A
A
0,18
0,37
Possiamo
rappresentarla
come
la
successione di stati di un sistema e
ricavare un modello descrittivo che a
partire da un certo stato indichi la
probabilità di transizione verso un altro
stato.
La parola nascosti indica che uno stato
non può essere osservato
Gli schemi di transizione sono
caratteristici delle zone codificanti e non.
C
0,16
0,31
C
0,17
0,35
0,20
G
0,31
0,15
0,26
T
0,36
G
0,20
0,18
T
Francesco Piva
Ist Biologia e Genetica, Ancona
Date le cinque sequenze sotto, cerchiamo di ricavare un modello di Markov
Si ricava questo modello
Inserzione di uno stato
(regioni altamente variabili)
Stati principali
E.g. P(ACACATC) = (0.8 * 1)*(0.8*1)*(0.8*0.6)*(0.4*0.6)*(1*1)*(0.8*1)*(0.8)
A
C
A
C
A
T
C
(S = logP(sequenza) - lunghezza(sequenza)*log0.25 )
Francesco Piva
Ist Biologia e Genetica, Ancona
L’attuale modello di predizione di un gene
Stati particolari (es: n)
Inserzione di uno
stato (regioni
altamente variabili)
Stati principali
- si possono rappresentare regole semplici
- non si considera la frequenza dei dinucleotidi
- non si considera la dipendenza (correlazione) fra i nucleotidi
- in realtà ci vorrebbe un modello di Markov per gli esoni, uno per gli
introni, uno per le regioni non tradotte
Francesco Piva
Ist Biologia e Genetica, Ancona
Perceprton
assoni
n
sinapsi
x1
x2
w1
x3
w3
xn
wn
w2
corpo
i 1
dendriti

b
inputs
weights
y  f (  wi xi b)
assone
non linear
function
bias
E’ un algoritmo realizzato con una rete neurale artificiale che realizza l’analisi discriminante
lineare, questo prova iterativamente vari piani di separazione cercando ad ogni passo di
minimizzare l’errore di discriminazione.
Francesco Piva
Ist Biologia e Genetica, Ancona
Stima degli esameri
Le sequenze vengono trattate come successioni di parole. Ciascuna parola è un insieme di
basi, ad esempio sei simboli formano un esamero
La distinzione tra sequenze codificanti e non, si basa sulla frequenza con cui si trovano certi
esameri
Alcune parole sono caratteristiche delle sequenze codificanti
Es: CAGCAG
Altre sono caratteristiche di quelle non codificanti
Es: TAATAA
Dall’osservazione dei geni si ricava un punteggio che viene assegnato ad ogni esamero.
Il punteggio può essere positivo o negativo a seconda che sia indizio di una sequenza
codificante o meno.
In fase di analisi, data una sequenza che potrebbe rappresentare un potenziale gene, si
estraggono tutti gli esameri e si ricava un punteggio totale.
Francesco Piva
Ist Biologia e Genetica, Ancona
Metodo della marice di pesi
Questo metodo è usato per assegnare un punteggio ad un sito di DNA o RNA per indicare quanto
questo sia affine a legare una proteina o altro
Punteggio (gtcacgt) = -0.21 -0.5 +0.73 +1.32 +0.94 +0.99
+0.27 = 3,54
Punto debole: non si tiene conto delle correlazioni tra basi
in diversa posizione
Es:
GTCACGT
GTCACTT
Questi siti di legame differiscono solo
per la sesta posizione. Non è detto che
il punteggio in posizione 4 (A) dipenda
solo dal nucleotide che si trova in
quella posizione: potrebbe dipendere
da quali altri nucleotidi sono presenti
nelle vicinanze. In altre parole, a volte
non vale la semplice proprietà additiva
per calcolare l’affinità di legame
Il metodo del vettore dim pesi associa un punteggio ad un’intera parola anziché ad una singola base
Decomposizione secondo la direzione di massima dipendenza
Francesco Piva
Ist Biologia e Genetica, Ancona
Reti neurali artificiali
Francesco Piva
Ist Biologia e Genetica, Ancona