Mappe fisiche Si basano sulla localizzazione fisica delle molecole di DNA Costruzione di una mappa fisica fisica diversi metodi - Mappe a bassa risoluzione - Mappe ad alta risoluzione Risoluzione= distanza a cui due punti devono trovarsi per poter essere identificati come distinti Mappe fisiche a bassa risoluzione (5-0.5Mb) Mappatura citogenetica mediante: bandeggio cromosomico FISH (Fluorescence In Situ Hybridization) Mappatura per delezione Mappatura mediante ibridi Mappe citogenetiche mediante bandeggio Fluorescent In Situ Hybridization (FISH) Ibridazione in situ con sonde marcate con diversi composti fluorescenti (ognuno emette ad una specifica lunghezza d’onda). Il vetrino è esposto alle varie lunghezze d’onda in maniera sequenziale generando al computer una “pittura cromosomica” Su quale cromosoma risiede un gene di interesse? Mappatura per delezione I geni sono assegnati ad un particolare cromosoma l’associazione di un fenotipo con una delezione cromosomica Incrocio tra un individuo omozigote per la mutazione recessiva ed un individuo eterozigote per la delezione mediante Mappe fisiche ad alta risoluzione (100kb-1bp) Mappe di restrizione Mappatura mediante STS (Sequence Tagged Sites) Sequenziamento del DNA Mappa di restrizione Uso di enzimi con siti di taglio rari es. Not1 riconosce sequenza di 8 basi ricca in GC (meno frequenti sul genoma umano) Elettroforesi su gel dei frammenti ottenuti per stimarne le dimensioni RFLP Mappe di restrizione (combinando risultati ottenuti con tagli di più enzimi contemporaneamente) Mappatura mediante siti a sequenza etichettata (Sequence Tagged Sites o STS) Le STS, STS sono brevi segmenti unici di DNA di cui è nota sequenza e posizione sul genoma landmark (pietra miliare) STS Sono lunghe circa 100-500 bp e sono identificabili mediante PCR STS nel gene per la proteina ribosomale S3. Le regioni sottolineate corrispondono ai primers usati per amplificarli Sequenze utilizzabili come STS: - una regione sequenziata casualmente e poi posizionata sul cromosoma - una regione mappata geneticamente - una sequenza trascritta Mappa di cloni contigui (contig* map) STEP 1 - collezione di frammenti clonati di DNA provenienti da un intero cromosoma o parti di esso (genoteche totali o parziali). STEP 2 – identificazione di cloni che hanno inserti di DNA che si sovrappongono. Si cerca di ottenere un contiguo, ossia una serie di cloni overlapping che coprano una intera regione cromosomica. STEP 3 – I cloni ottenuti rappresentano la base di partenza per analisi piu' dettagliate fino a livello di sequenza. *Contig = serie ricostruita di più più frammenti sovrapposti di DNA a formare un segmento continuo Assemblaggio di un contig mediante sovrapposizione delle mappe di restrizione dei singoli cloni Clone 1 B N Clone 2 N S N S Clone 3 Clone 4 Contig B = BamHI N = NotI S = SalI X = XhoI X X B N N S X B N N S X S S S S Assemblaggio di un contig mediante sovrapposizione delle mappe di restrizione dei singoli cloni Assemblaggio di un contig mediante sovrapposizione di STS Assemblaggio di un contig mediante sovrapposizione di sequenze dei singoli cloni Chromosome walking Shotgun approach Chromosome walking The shotgun DNA sequencing Il DNA è frammentato e sequenziato. La sequenza è ricostruita confontando sequenze overlapping. Progetto genoma umano Iniziato nel 1985 Febbraio 2001 Costruzione di una mappa genetica e fisica per il genoma di uomo cDNA sequencing (creazione di una banca di EST ovvero Expression Sequence Tags) Genomic shotgun sequencing Utilizzo di sequenziatori automatici Sequenziamento del genoma umano Sequenziamento del genoma umano: approccio gerarchico “clone by clone" Libreria Libreria con con larghi larghi cromosomici. cromosomici. Cloni CloniBAC BAC~100-200 ~100-200kb kb inserti inserti Costruzione Costruzione didi una una mappa mappa fisica fisica del del genoma, genoma, selezione selezione del del numero numero minimo minimo didi cloni cloni per per coprire coprire ilil genoma genoma casuale ee Frammentazione Frammentazione casuale sequenziamento sequenziamento shotgun shotgun dei dei cloni. cloni. Assemblaggio Assemblaggiodelle dellesequenze sequenze Sequenziamento del genoma umano: Approccio “globale” (Whole Genome Shotgun, WGS) Libreria Libreriashotgun: shotgun:corti cortiinserti inserti 1.5-3 1.5-3kb kb Sequenziamento Sequenziamentoshotgun shotgundei dei cloni. cloni. Assemblaggio Assemblaggiodelle dellesequenze sequenze “clone by clone” vs WGS Human Genome Consortium Celera Fisical map, 45.000 BAC 27.000.000 clones individual BAC sequencing whole sequencing Assembly Assembly 10 years 1 year Organizzazione Organizzazione del del genoma genoma umano umano Distribuzione della funzione genica dell’ 1,5% del genoma umano (26.000 geni presunti) Per quale ragione quasi la metà dei geni codificati dal genoma umano attende ancora una funzione? Come si assegna ad una sequenza la categoria di “gene”? Complicazioni nell’identificazione dei geni codificanti in genomi eucariotici Come si assegna ad una sequenza la categoria di “gene”: Un criterio, molto usato, è l’identificazione nella sequenza di una Open Reading Frame (ORF) se la sequenza viene trascritta se è possibile “tradurre in vitro” la sequenza se la sequenza del polipeptide è omologo ad un altro o se la “presunta” funzione è in accordo con le caratteristiche del carattere Expressed Sequence Tags Come si studia la funzione di un prodotto genico? genomica funzionale (lezione 19) Il DNA ripetitivo può essere distinto in due categorie: Ripetizioni intersperse: le cui unità sono distribuite nel genoma in modo casuale e occupano il 44% del genoma (LINE, SINE, etc) Sequenze ripetute in tandem: le cui unità sono disposte in serie l’una vicina all’altra (DNA satellite, minisatellite, microsatellite) Sequenze ripetute in tandem DNA minisatellite: VNTR, Variable Number Tandem Repeats Lunghezza della sequenza ripetuta: 15-100 bp Numero di ripetizioni: da decine a migliaia di copie Frequenza nel genoma: circa 100 loci in tutto il genoma umano Localizzazione: sparse nel genoma DNA microsatellite: STR, Short Tandem Repeats Lunghezza della sequenza ripetuta : 2-6 bp Numero di ripetizioni : 10-20 Frequenza nel genoma : circa 100mila loci, uno ogni 30000 bp Localizzazione: sparse nel genoma Derivano da errori nel processo di copiatura del genoma durante la divisione cellulare e potrebbero essere prodotti inevitabili della replicazione del genoma Ripetizioni intersperse LINE*: Long Interspersed Elements, sequenze disperse lunghe Nel genoma umano sono presenti da 20000 a 40000 elementi Ogni elemento può essere lungo da 1000 a 5000 bp SINE*: Short Interspersed Elements, sequenze disperse corte Nel genoma umano sono presenti circa 500 mila elementi Ogni elemento può essere lungo alcune centinaia di basi Esempio: sequenze Alu (1,1 milioni di copie nel genoma) Elementi LTR : Long Terminal Repeat Retrotrasposoni con sequenze ripetute alle estremità Transposoni a DNA Sono tutte derivate da elementi trasponibili * LINE e SINE sono retrotrasposoni non-LTR Elementi trasponibili Gli elementi trasponibili sono elementi autonomi di DNA parassita, capaci di esistere solo all’interno di una cellula Sono componenti normali ed ubiquitari dei procarioti ed eucarioti Sono sequenze di DNA capaci di muoversi all’interno dei genomi La trasposizione consiste in una ricombinazione non-omologa. omologa I trasposoni possono causare mutazioni geniche e cromosomiche Trasposizione con intermedi a DNA a) replicativa b) non replicativa Trasposizione con intermedi a RNA Eucarioti e procarioti Solo eucarioti Organizzazione del genoma nucleare umano Es. locus del recettore beta delle cellule T (chr 7) – 50Kb Sequenze : Sequenzecodificanti codificanti: -- 22 segmenti segmenti genici genici codificanti codificanti parte parte del TcR del TcR -- 11gene geneper perililtripsinogeno tripsinogeno -- 11 pseudogene pseudogene correlato correlato alal tripsinogeno tripsinogeno Esoni: Esoni:1414bp 1414bp=2,8% =2,8%del deltotale totale 52 (39%)didi44tipi: tipi: 52sequenze sequenzeripetute ripetute(39%) LINE LINE SINE SINE Trasposoni Trasposoni LTR LTR 22 microsatelliti microsatelliti GAGAGA … ee GAGAGA… rispettivamente rispettivamente con con ripetizioni ripetizioni TATTTATTTATT …, TATTTATTTATT…, Circa Circa ilil 50% 50% didi sequenze sequenze non non geniche , di funzione ignota geniche, di funzione ignota