Introduzione alla bioinformatica
Novembre 2004
Francesco Piva
Istituto di Biologia e Genetica
Università Politecnica delle Marche
Banche dati: raccolta dati, ordinamento, correlare quelli che
trattano i diversi aspetti di uno stesso tema, renderli fruibili in
modo semplice, unificare le banche adti.
Ricerca dei geni in un genoma
Inferire la funzione delle proteine a partire dalla sequenza del gene,
da qui la possibilità di creare nuove proteine con nuove funzioni
Obiettivi della
bioinformatica
Prevedere lo splicing dell’mRNA a partire dalla sequenza
del pre-mRNA, capire l’effetto delle mutazioni
Descrivere la rete genica di una cellula, chi attiva o reprime
chi, da chi si fa attivare o reprimere. Prevedere al computer
l’effetto di uno stimolo esogeno… sapere come compensarlo.
Sapere che stimolo generare per produrre certi effetti
Capire l’evoluzione delle specie
Poter prevedere la ricombinazione nel DNA
Francesco Piva
Ist Biologia e Genetica, Ancona
Risorse umane, formazione, mezzi
database
Teoria dell’informazione, studio
dei linguaggi, ridondanza,
entropia, correlazione…
Metodi statistici
Metodi della
bioinformatica
Reti neurali
Algoritmi matematici: FFT,
Wavelet, ICA, PCA, teoria
delle reti…
…
Data mining
Francesco Piva
Ist Biologia e Genetica, Ancona
Predizione teorica dei geni in un genoma
metodi
Analisi discriminante
lineare e quadratica
Alberi di
decisione
Modelli di Markov
a variabili nascoste
Reti neurali
artificiali
Metodo del
perceptron
Stima degli
esameri
codificanti
Metodo della
matrice di pesi
e del vettore di
pesi
Decomposizione
secondo le
direzioni di
massima
dipendenza
Francesco Piva
Ist Biologia e Genetica, Ancona
Analisi discriminante lineare e quadratica
L’obiettivo di questo metodo è:
Identificare le variabili e le
relazioni tra di esse che
permettono di differenziare
due o più gruppi di dati
Classificare nuovi
casi nei gruppi
ricavati (predittività)
lineare
quadratico
Concentrazione di A
Concentrazione di A
Es: distinguere gli individui sani e
malati in base alla misura della
concentrazione di due enzimi.
Con il metodo dei minimi quadrati si
minimizza l’errore di classificazione
e si ottiene una relazione lineare tra
le due variabili
Nel caso del riconoscimento degli
esoni in una sequenza di pre-mRNA,
come variabili si sceglie la frequenza
di certe triplette nei siti di splicing in 5’
e in 3’.
Francesco Piva
Ist Biologia e Genetica, Ancona
Modelli di Markov a variabili nascoste
Un sistema viene descritto da una successione di stati discreti e dalla probabilità di transizione da
uno stato all’altro
Data una sequenza esonica:
…catga…
0,36
A
C
A
T
G
0,15
0,32
A
A
0,18
0,37
Possiamo
rappresentarla
come
la
successione di stati di un sistema e
ricavare un modello descrittivo che a
partire da un certo stato indichi la
probabilità di transizione verso un altro
stato.
La parola nascosti indica che uno stato
non può essere osservato
Gli schemi di transizione sono
caratteristici delle zone codificanti e non.
C
0,16
0,31
C
0,17
0,35
0,20
G
0,31
0,15
0,26
T
0,36
G
0,20
0,18
T
Francesco Piva
Ist Biologia e Genetica, Ancona
Date le cinque sequenze sotto, cerchiamo di ricavare un modello di Markov
Si ricava questo modello
Inserzione di uno stato
(regioni altamente variabili)
Stati principali
E.g. P(ACACATC) = (0.8 * 1)*(0.8*1)*(0.8*0.6)*(0.4*0.6)*(1*1)*(0.8*1)*(0.8)
A
C
A
C
A
T
C
(S = logP(sequenza) - lunghezza(sequenza)*log0.25 )
Francesco Piva
Ist Biologia e Genetica, Ancona
L’attuale modello di predizione di un gene
Stati particolari (es: n)
Inserzione di uno
stato (regioni
altamente variabili)
Stati principali
- si possono rappresentare regole semplici
- non si considera la frequenza dei dinucleotidi
- non si considera la dipendenza (correlazione) fra i nucleotidi
- in realtà ci vorrebbe un modello di Markov per gli esoni, uno per gli
introni, uno per le regioni non tradotte
Francesco Piva
Ist Biologia e Genetica, Ancona
Perceprton
assoni
n
sinapsi
x1
x2
w1
x3
w3
xn
wn
w2
corpo
i 1
dendriti

b
inputs
weights
y  f (  wi xi b)
assone
non linear
function
bias
E’ un algoritmo realizzato con una rete neurale artificiale che realizza l’analisi discriminante
lineare, questo prova iterativamente vari piani di separazione cercando ad ogni passo di
minimizzare l’errore di discriminazione.
Francesco Piva
Ist Biologia e Genetica, Ancona
Stima degli esameri
Le sequenze vengono trattate come successioni di parole. Ciascuna parola è un insieme di
basi, ad esempio sei simboli formano un esamero
La distinzione tra sequenze codificanti e non, si basa sulla frequenza con cui si trovano certi
esameri
Alcune parole sono caratteristiche delle sequenze codificanti
Es: CAGCAG
Altre sono caratteristiche di quelle non codificanti
Es: TAATAA
Dall’osservazione dei geni si ricava un punteggio che viene assegnato ad ogni esamero.
Il punteggio può essere positivo o negativo a seconda che sia indizio di una sequenza
codificante o meno.
In fase di analisi, data una sequenza che potrebbe rappresentare un potenziale gene, si
estraggono tutti gli esameri e si ricava un punteggio totale.
Francesco Piva
Ist Biologia e Genetica, Ancona
Metodo della marice di pesi
Questo metodo è usato per assegnare un punteggio ad un sito di DNA o RNA per indicare quanto
questo sia affine a legare una proteina o altro
Punteggio (gtcacgt) = -0.21 -0.5 +0.73 +1.32 +0.94 +0.99
+0.27 = 3,54
Punto debole: non si tiene conto delle correlazioni tra basi
in diversa posizione
Es:
GTCACGT
GTCACTT
Questi siti di legame differiscono solo
per la sesta posizione. Non è detto che
il punteggio in posizione 4 (A) dipenda
solo dal nucleotide che si trova in
quella posizione: potrebbe dipendere
da quali altri nucleotidi sono presenti
nelle vicinanze. In altre parole, a volte
non vale la semplice proprietà additiva
per calcolare l’affinità di legame
Il metodo del vettore dim pesi associa un punteggio ad un’intera parola anziché ad una singola base
Decomposizione secondo la direzione di massima dipendenza
Francesco Piva
Ist Biologia e Genetica, Ancona
Reti neurali artificiali
Francesco Piva
Ist Biologia e Genetica, Ancona
Campus di Padriciano
SISSA Scuola
Internazionale
Superiore di
Studi Avanzati
Campus di Basovizza
Osservatorio Astronomico
di Trieste INAF
the abdus salam international
centre for theoretical physics
Laboratorio di biologia marina
Il castello di Miramare
Istituto talassografico