Lezione 7-8 6 Novembre 2009 - Università degli Studi di Roma "Tor

Lezione 7-8
6 Novembre 2009
corso di genomica
a.a. 2009/10
aula 6a ore 14.00-16.00
corso di laurea specialistica
magistrale Biotecnologia
lezione 11 Dicembre sequenziamento shot-gun metodo
pyrofosfato 454 e 480 Roche. Dr.Rodriguez
lezione 15 Dicembre Programmi informatici per confronti
genomici. Dr.P. Daddabbo
analisi del genoma
tramite wgs (wide genome screening)
cosa significa e come si fa
devono essere noti i marcatori SNPs o VNTR con una
densità nota,
distribuzione omogenea ed alta densità (≠ risoluzione)
ultimi metodi a densità media di un marcatore / 500bp
più marcatori più risoluzione necessità di nuove tecniche
J.N.Hirschhorn & M.J.Daly
Nature Reviews Genetics vol.6; Febr.2005
Genome-wide association studies for common diseases and complex traits
con quali obbiettivi
analisi della variabilità genetica di popolazione
linkage disequilibrium LD associazione con marcatori
e triadi o famiglie (iniziata per malattie Mendeliane)
analisi di associazione dei fenotipi e patologie
confronto casi controlli
due diverse metodologie
wide genome scr. association: analisi frequenze caso
controllo
analisi di lnkage disequilibrium: famiglie grandi, triadi,
popolazioni inbred, popolazioni omogenee
per definizione sappiamo che c’è linkage
tre marcatori con 6 alleli: A a B b C c
aplotipi con freq uguali se in disequilibrio aumenta
la frequenza di uno degli aplotipi rispetto agli altri
esiste disequilibrio per effetto della mutazione
recente al’interno della stessa coorte
linkage mapping e
gw association
“linkage mapping” efficientissimo per malattie monogeniche
Mendeliane
le malattie monogeniche hanno una selezione negativa forte
perciò varianti rare (morbidità e mortalità alte e precoci), alta
penetranza per definizione, i markers cosegregano entro 1020 cM
successo in alcune malattie multifattoriali:
Inflam Bowel dis (IBD);
Shizofrenia,
Diabete tipo I
nelle patologie non Mendeliane o fenotipi
multi fattoriali
bassa penetranza: aumenta la necessità di ampiezza del
campione per la significatività della statistica
ricerca in coorti ad origine limitata e popolazioni isolate
es. Sardegna, Giappone, Foresta Amazzonica ecc.
analisi dei geni identificati per confronto
esempio dei gemelli
Infl Bowel Disease solo 2x il rischio per fattori noti
il calcolo totale del rischio è 30x
quindi il n. di fattori ignoti è molto grande
quali cause: basaa ereditabilità di tratti genetici complessi
copertura parziale dei markers con microsatelliti
definizione imprecisa dei fenotipi
protocolli di studio non adeguatamente potenti
necessità di studi estesi di geni candidati (più difficili?)
da regioni di 10 cM (~106 bp) al gene
dalla regione di linkage per arrivare al gene
analisi dei geni presenti
possibili geni candidati per funzione
sequenziamento e ricerca degli alleli
nel caso di mutazioni non ci potrà essere disequilibrium
il sistema è anche poco efficiente per trovare le varianti
genetiche che hanno poco effetto sulla malattia
effetti quantitativi
tratti con effetti quantitativi con architetture complesse
influenzano il fenotipo con la somma e le interazioni tra
fattori ambientali e genetici
le singole varianti alleliche hanno poca influenza
le varianti comuni freq >1% possono dare suscettibilità
resistono alla selezione negativa per la bassa influenza
ne sono stati trovati con un aumento di rischio = 2x
alcuni alleli introvabili con LD
alleli a bassa suscettibilità non possono essere trovati
a meno di screening con 106 individui
es. variante Pro 12 Ala del gene proliferativo recettore g
attivato del perossisoma PPARG
rischio doppio per diabete tipo 2
mai potrebbe essere trovato per LD (link diseq)
solo con screening su oltre un milione di soggetti
ragionevole credere che le malattie comuni siano
determinate da alleli comuni, rari e tratti con effetto
quantitativo, necessaria strategia complementare
analisi di geni candidati
sistema alternativo al LD
per appartenenza a regioni in LD
per evidenze che riguardano/influenzano la patologia
analisi più comune con resequencing di pazienti e controlli
(ricerca delle varianti che sono più presenti o assenti nella
patologia)
analisi spesso ristretta a regioni codificanti o a singolo
esone come il gene recettore per la “melanocortin-4”
implicato in una piccola percentuale dell’obesità giovanile
limiti degli studi gene candidato
l’ipotesi biologica, fisiopatologica,
testare tutti i geni del pathway insulin-signalling dipendente
identificazione solo di una frazione dei fattori genetici di rischio
nonostante le buone conoscenze biologiche
in assenza di conoscenze fondamentali fisiopatologiche della
patologia in esame il sistema è inadeguato (cercare l’ago nel
pagliaio senza la calamita o metal detector)
studi di associazione
in assenza di certezze fisiopatologiche della malattia
l’analisi dei geni candidati non è possibile
uso di varianti alleliche comuni meno caro del
risequenziamento
efficiente per evidenziare regioni complesse
analisi per confronto delle varianti caso/controllo
uso alternativo del controllo con analisi famiglia/malato
wgs per associazione
si cercano le regioni associate “in linkage” con gli alleli
possibili dei geni implicati (niente a che fare con LD)
bassa penetranza per la presenza di molti fattori
analisi di campioni sempre maggiori per gli alleli rari
assenza di presunte regioni preferenziali, no bias
assenza di evidenze della collocazione e funzione dei geni
coinvolti
miglioramento delle tecniche
essenziale per sveltire analisi molto estese
database di 96 dbSNPs umani con frequenze > 1%
costi attuali ~0.001 $ x genotipo = 500 $ per individuo
varie tecniche adottate, la maggior parte con PCR e
ibridazione su chip array
presenza di aplotipi e LD
“ENCODE” encyclopedia of DNA elements
esistenza di lunghi tratti di genoma in LD
alta predittività degli SNPs vicini (o recenti o senza
ricombinazione)
conosciute le regioni in LD (aplotipi) si riducono gli SNPs da
analizzare
si deve analizzare la porzione di genoma a basso LD
nascita della Hap Map data
poche centinaia di migliaia di SNPs per mappare l’intero
genoma
mappa degli aplotipi determina le regioni di LD e blocchi
di genoma con gli stessi alleli che non ricombinano
nelle popolazioni antiche come in Africa ci sono meno LD
sono necessari più SNPs (c’è stato più tempo per
ricombinazione, i gruppi etnici del resto del mondo
partono da alcuni colli di bottiglia con meno alleli e meno
aplotipi
approccio missenso
scelta degli SNPs missenso in regioni codificanti
1-2 SNPs in media per gene riduce a 30-60 x103 il n. di SNPs
la ricerca di tutti gli SNPs dei geni comprende invece il
resequencing bidirezionale di 3x105 esoni x 48 soggetti
~306 sequenziamenti
possibile solo con i nuovi metodi di sequenziamento massivo
possibili paradossi: linkage di SNP missenso con variante di
regione regolativa (RR)
es. CTLA4 cytotoxic T-lymphocyte-associated protein 4
Thr17Ala in LD con RR polimorfica non codificante in
associazione + forte con autoimmunità
la prospettiva nel restante 95% del
genoma
genoma si ricomincia da capo
nell’interattoma va inserito il genoma e si
allargano le prospettive
nuove tecniche, metodi, strumenti