Universita degli Studi di Bologna FACOLTA DI SCIENZE MATEMATICHE, FISICHE E NATURALI Corso di Laurea in Fisica Un modello per lo studio della diversita anticorpale mediante algoritmi genetici Relatore: Chiar.mo Prof. Ferdinando Bersani Tesi di Laurea Correlatori: di: Chiar.mo Prof. Silvana Valensin Renato Campanini Dott. Gianni Di Caro Sessione Autunnale Anno Accademico 1993 - 1994 Indice Introduzione 1 1 Il Sistema Immunitario 1.1 Caratteristiche Generali . . . . . . . . . . . . . . . . . . 1.2 La Proteina . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 L'anticorpo . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 La Sintesi Proteica . . . . . . . . . . . . . . . . . . . . . 1.4.1 Il DNA e l'RNA . . . . . . . . . . . . . . . . . . 1.4.2 Il Meccanismo di Sintesi . . . . . . . . . . . . . 1.4.3 Possibili Alterazioni del Patrimonio Genetico 1.4.4 Lo Splicing . . . . . . . . . . . . . . . . . . . . . 1.5 L'Ipotesi di Ricombinazione Somatica . . . . . . . . . 1.5.1 I Geni per le Catene Leggere L . . . . . . . . . 1.5.2 I Geni per le Catene Pesanti H . . . . . . . . . 1.5.3 Un po' di Numeri . . . . . . . . . . . . . . . . . 1.6 Il Linfocita B . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 I Macrofagi . . . . . . . . . . . . . . . . . . . . . . . . . . 1.8 Il Linfocita T . . . . . . . . . . . . . . . . . . . . . . . . 1.9 Le Linfochine . . . . . . . . . . . . . . . . . . . . . . . . 1.10 I Geni MHC . . . . . . . . . . . . . . . . . . . . . . . . . 1.11 Il Sistema Complemento . . . . . . . . . . . . . . . . . . 1.12 La Selezione Clonale . . . . . . . . . . . . . . . . . . . . 1.13 Il Ciclo della Risposta Immunitaria . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . 3 5 6 11 11 12 13 16 17 18 20 23 25 30 30 33 34 35 37 39 2 Algoritmi Genetici 42 2.1 Il Teorema dello Schema . . . . . . . . . . . . . . . . . . . 49 ii 2.2 Le Nicchie Ecologiche . . . . . . . . . . . . . . . . . . . . 52 2.2.1 Il Fitness Sharing . . . . . . . . . . . . . . . . . . 53 2.3 Il Criterio di Termine . . . . . . . . . . . . . . . . . . . . 57 3 Un Modello Semplicato del Riconoscimento e della Diversita Anticorpali 59 3.1 La Cross-Reattivita: Analisi e Risultati . . . . . . . . . 62 3.2 La Specicita e la Multispecicita . . . . . . . . . . . . . 64 3.2.1 Procedura di Analisi dei Dati . . . . . . . . . . . 79 3.2.2 Stabilita della Diversita Anticorpale . . . . . . . 80 3.2.3 Scoperta della Diversita . . . . . . . . . . . . . . 86 3.2.4 Dimensione Critica della Popolazione di Anticorpi . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.2.5 Potere Risolutivo del Modello . . . . . . . . . . . 99 3.2.6 Scoperta della Diversita come Funzione dei Parametri N e . . . . . . . . . . . . . . . . . . . 103 Conclusioni 122 Ringraziamenti 123 Bibliograa 123 iii Introduzione Il sistema immunitario e un sistema biologico altamente evoluto, la cui funzione e quella di difendere l'organismo da agenti estranei che ne minaccino l'integrita (antigeni). Nello svolgere le proprie funzioni fa uso di meccanismi di apprendimento, memorizzazione e riconoscimento di pattern, la cui complessita ne rende dicoltosa la modellizazione con metodiche tradizionali come le equazioni differenziali o i processi stocastici. Per questo motivo la ricerca va sempre piu orientandosi verso l'uso di tecniche matematiche come gli automi cellulari[CS92, NW92, Sie88], le reti[FKPP87, VCDV88, Per89] e gli algoritmi evolutivi[SFP93a, FJSP93] che sfruttano, seguendo paradigmi dierenti, meccanismi di tipo biologico e/o meccanismi d'interazione elementare tra i costituenti il sistema, per dare origine a comportamenti collettivi complessi. A questo proposito sottolineamo come anche lo studio dei meccanismi di base che presiedono al funzionamento del sistema immunitario, in tempi recenti sia stato fatto oggetto di studio da parte di illustri sici e matematici[Par90, FPP86, WA88, Per92]. In un recente lone d'indagine[FJSP93], portato avanti da un gruppo aerente ad A.S. Perelson del Los Alamos National Laboratory, e a cui ci si e ispirati per il presente lavoro di tesi, si e fatto uso di algoritmi genetici in quanto essi si rivelano appropriati per una modellizzazione molto aderente alla realta biologica, consentendo contemporaneamente una notevole essibilita e semplicita d'uso. 1 Lo scopo che ci si e preposto in questa tesi e una indagine della generazione della diversita anticorpale che rappresenta, in ambito immunologico, uno degli argomenti centrali di discussione. Infatti uno degli aspetti piu straordinari del sistema immunitario e la capacita di riconoscere un numero praticamente illimitato di antigeni con un numero grande ma limitato di anticorpi, generati con una quantita molto ristretta di geni, facendo leva sulla dierenziazione anticorpale che produce strategie di ottimizzazione delle risorse, quali il riconoscimento di piu antigeni diversi da parte di un singolo anticorpo, o il riconoscimento di un antigene da parte di piu anticorpi. Per questo scopo si e costruito un modello molto schematico e semplicato della risposta anticorpale, le cui componenti sono state fatte evolvere utilizzando un algoritmo genetico ed e stato studiato il processo di generazione della dierenziazione anticorpale in relazione al variare delle popolazioni dei possibili antigeni ed anticorpi ed al variare dei meccanismi di interazione tra esse. Cio presenta anche un interesse nell'ambito della tematica degli algoritmi genetici, in quanto fornisce un innovativo risultato per cio che concerne il comportamento di tali algoritmi nel settore delle funzioni multimodali, orendo nuove opportunita d'indagine. 2 Capitolo 1 Il Sistema Immunitario In questo capitolo verranno descritti i costituenti fondamentali del sistema immunitario[LGS93, DLB94, Aa91, Eis93, RBM94, Var86, Var92] e il modo in cui questi concorrono alla difesa dell'organismo. 1.1 Caratteristiche Generali Il sistema immunitario svolge il compito di difesa dell'integrita dell'organismo, sia che questa sia minata da agenti esterni, sia che lo sia da agenti interni. Questo compito si articola in due fasi successive che consistono la prima nel riconoscimento dell'elemento estraneo che minaccia l'organismo, dove estraneo non vuole dire necessariamente esterno, e la seconda nell'attuazione di risposte generalizzate atte alla neutralizzazione dell'antigene. Queste ultime vengono chiamate funzioni eettrici, mentre con il termine antigene si intende qualsiasi sostanza in grado di provocare la risposta immunitaria . Per svolgere la propria azione il sistema immunitario si avvale di tre strumenti fondamentali: cellule, molecole anticorpali in soluzione e linfochine, cos che si parlera di immunita cellulare nel caso in cui la risposta immunitaria si attui attraverso le cellule, e di immunita umorale se essa si realizza grazie alle molecole in soluzione. Le cellule sono responsabili dell'opera di riconoscimento degli antigeni, 1 Una denizione in senso piu stretto di antigene e quella di molecola legata dagli anticorpi indipendentemente dalla risposta dell'organismo. Di norma gli antigeni immunogenici sono macromolecole di peso molecolare maggiore di 2000 Dalton. 1 3 che compiono per mezzo di molecole collegate alla membrana plasmatica, che e la membrana delimitante la cellula, ma poste dal lato rivolto all'esterno: sono i linfociti T e B. Le molecole in soluzione sono proteine, chiamate nell'insieme immunoglobuline ed indicate con Ig, che costituiscono il 20% delle proteine presenti nel sangue: sono i cosiddetti anticorpi. Le linfochine sono anch'esse delle proteine, ed il loro ruolo e di coadiutori nella risposta immunitaria attraverso la stimolazione delle risposte umorale e cellulare e della produzione dei fagociti, cellule adibite all'uccisione, ingestione e digestione di elementi estranei e di detriti cellulari. In un essere umano si trovano circa 10 cellule linfocitarie e 10 anticorpi. Le cellule immunitarie vengono prodotte ed elaborate nei cosiddetti organi primari: midollo osseo, timo e milza, ed alcune di esse hanno il compito di produrre e secernere le molecole immunitarie; sia le cellule che le molecole vengono poi veicolate nell'organismo dalle circolazioni sanguigna e linfatica. Brevemente: il midollo osseo e il luogo di fabbricazione dei linfociti T e B, mentre il timo e quello di maturazione dei linfociti T; la circolazione sanguigna fa s che le cellule e le molecole, attraversando le pareti capillari, raggiungano i tessuti, mentre il sistema linfatico e il sistema vascolare di ritorno, che raccoglie molecole anticorpali, cellule linfocitarie e liquido interstiziale dei tessuti per riportarli nella circolazione sanguigna; il raccordo tra i due sistemi vascolari avviene nella vena succlavia. Particolari punti di accumulo dei linfociti sono i linfonodi, dove i macrofagi, cellule non specializzate, inghiottono e degradano gli antigeni, mostrandone poi frammenti sulla propria supercie cellulare perche i linfociti, cellule specializzate, possano riconoscerli unitamente agli antigeni integri. Lo stesso avviene nella milza, dove i dierenti tipi di linfociti collaborano per la eliminazione degli elementi estranei. Quindi, i linfonodi nel sistema linfatico e la milza in quello circolatorio, costituiscono punti in cui l'incontro dei 12 4 20 R N H 2 C H O C OH Figura 1.1: R= gruppo laterale, N2 H = gruppo aminico linfociti con eventuali antigeni presenti e facilitato dal loro accumulo. Per approfondire la dinamica del riconoscimento e della neutralizzazione occorre una maggiore conoscenza degli elementi cellulari ed umorali, ma prima ancora ci necessita un breve cenno alle proteine. 1.2 La Proteina E denita aminoacido una molecola formata da un atomo centrale di C, detto carbonio , a cui sono legati, ai quattro vertici di un tetraedro: un atomo di H, un gruppo laterale, un gruppo aminico, ovvero contenente -NH, e inne un gruppo carbossilico COOH (g. 1.1) Il legame peptidico e il legame chimico fra il gruppo aminico di un aminoacido ed il gruppo carbossilico di un altro con eliminazione di una molecola di acqua, e si dice polipeptide una catena di aminoacidi legati da legame peptidico. Inne e denita proteina una molecola formata da uno o piu polipeptidi, variabile da pochi a migliaia di aminoacidi. Ogni proteina ha forma, dimensione e peso unici e deniti, con pesi molecolari che vanno da 5000 a milioni di Dalton. Una Caratteristica saliente delle proteine e di essere costituite soltanto da 20 dei piu di cento aminoacidi dierenti esistenti. La struttura proteica e classicata in base a: struttura primaria individuata dalla sequenza aminoacidica dei polipeptidi e che come tale e all'origine delle strutture secondaria e terziaria; 5 struttura secondaria che emerge dai ripiegamenti della catena peptidica stabilizzati dalla formazione di legami a idrogeno nello scheletro ma non fra le strutture laterali; struttura terziaria generata dalle associazioni fra i gruppi laterali degli aminoacidi nel polipeptide; struttura quaternaria individua la forma complessiva di una proteina, ottenuta per associazione di piu polipeptidi. Il codice per la formazione di una qualsiasi proteina e contenuto nel patrimonio genetico degli individui, il DNA. 1.3 L'anticorpo L'anticorpo e una molecola proteica costituita tipicamente da due coppie di catene L e H, ove L sta per Light, leggero, e H per Heavy, pesante, in quanto sono due catene di aminoacidi una molto piu pesante dell'altra che insieme costituiscono l'unita fondamentale dell'anticorpo. Ciascuna catena H e unita alla catena L da un legame chimico covalente fra atomi di S, detto legame disolfuro; un ulteriore legame disolfuro fra atomi di S appartenenti all'una e all'altra catena H tiene unite le due coppie H L. Ne risulta una struttura ad Y i cui due bracci sono entrambi costituiti di una catena L ed una parte della catena H disposte parallelamente, regione detta Fab, mentre il "gambo" risulta formato dalle rimanenti porzioni di catene H, anch'esse aancate, regione detta Fc. Ogni catena L e composta da una regione costante adiacente ad una variabile, mentre le regioni costanti e variabile per la catena H sono rispettivamente tre ed una. Queste regioni costante, C, e variabile, V, sono cos dette perche l'una e costituita da una successione di aminoacidi che e sempre la stessa per ogni classe di anticorpi, mentre la successione di aminoacidi dell'altra varia da anticorpo ad anticorpo. Cos rinveniamo in ogni Fab le regioni costante e variabile della catena L ed una costante e quella variabile della catena H, mantre in Fc le 6 due rimanenti regioni costanti di quest'ultima (g. 1.2). La regione V, che ospita al suo interno tre regioni per L e quattro regioni per H, dette ipervariabili o CDR, acronimo di regione determinante la complementarita, costituisce il cosiddetto paratopo, ossia quella porzione dell'anticorpo che va a legarsi all'antigene, o, ancora meglio, a quella porzione di molecola di antigene detta epitopo e costituita di circa una decina di aminoacidi. Sinonimi di paratopo ed epitopo sono rispettivamente determinante anticorpale e determinante antigenico, e diremo che un anticorpo e specico per un certo antigene se fra essi vi e grande anita, termine che indica il grado di complementarita epitopo-paratopo. Quest'ultima si congura come un incastro chiave-serratura, ossia una sorta di complementarita sterica tra la porzione della regione variabile dell'anticorpo ed una porzione della supercie dell'antigene, resa stabile dai legami deboli che si generano fra gli atomi e le molecole dell'una e dell'altra struttura quando essi vengono a trovarsi a distanza ravvicinata; questi sono dovuti alle forze di Coulomb, ai legami ad idrogeno e a quelli idrofobi sfruttanti le forze di Van der Waals fra gruppi idrofobi. Ne segue che quanto piu e alta l'anita tanto piu il legame e stabile. e dunque la diversa composizione chimica delle regioni variabili che, riettendosi in dierenti congurazioni spaziali dovute al ripiegamento del lungo lamento in virtu delle forze attrattive tra gli atomi che lo compongono, assicura la grande varieta di siti di combinazione per il riconoscimento di qualsiasi tipo di antigene. Piu precisamente la regione V stabilisce, con la propria struttura tridimensionale, un sito all'interno del quale poter ospitare l'antigene, mettendolo a stretto contatto con le regioni ipervariabili Diversamente, alla regione costante della catena H, in virtu proprio della costanza, e attribuito il compito di codica del ruolo di ciascuna classe a cui gli anticorpi appartengono, determinandone le funzioni eettrici. La classicazione delle regioni costanti e in catene k e 7 Figura 1.2: Rappresentazione di un anticorpo 8 per la catena L, ed in catene , , , e , con una sottoclassicazione in 4 tipi dierenti per , per la catena H. Monomeri o polimeri di anticorpi appartenenti alla stessa classe vengono chiamati immunoglobuline che, in virtu delle catene H degli anticorpi che le costituiscono, vengono suddivise in IgM, IgD, IgG, IgE e IgA. Quindi, per riassumere, un possibile anticorpo puo essere una immunoglobulina IgM, avente quindi la regione costante della catena H di tipo , la regione costante della catena L di tipo k o ed inne le regioni variabili, sia della catena H che di quella di L, qualsiasi. Vediamo brevemente le diverse Ig: IgM nella sua forma ancorata alla membrana del linfocita B e un monomero ed e ivi presente prima dell'incontro con l'antigene, mentre in forma secreta e la prima classe di anticorpi che si forma durante la risposta immunitaria, sotto forma di pentamero pentagonale con i 10 paratopi uguali rivolti all'esterno, cos da essere particolarmente eciente nel riconoscimento di quegli elementi patogeni, come i virus, che sono multivalenti; un antigene e multivalente quando presenta piu epitopi tutti uguali fra loro. Le funzioni eettrici sono : attivazione del Sistema Complemento (vedi oltre) per l'eliminazione dei microrganismi patogeni; attivazione dei macrofagi per l'uccisione e l'ingestione dei batteri; IgD e un monomero ma la sua funzione e ancora poco nota; IgG e il principale anticorpo presente nel siero, in forma di monomero, ed e prodotto in grosse quantita soprattutto se la stimolazione e stata multipla. Le funzioni eettrici sono le stesse dell'immunoglobulina IgM; IgE Si trova principalmente nei tessuti in cui, in complesso con l'antigene, attiva il rilascio delle istamine dalle apposite cellule, causando le reazioni allergiche; 9 IgA Puo avere forma di monomero o polimero, e in quest'ultima forma si lega ai recettori presenti sugli epiteli a contatto con il sangue, e per mezzo di essi e veicolato, attraverso le cellule epiteliali, all'interno dell'epitelio, dove esplica le sue funzioni. E alle immunoglobuline, sia nella loro forma libera che in quella legata, che e attribuito in prima istanza il compito del riconoscimento dell'antigene, ed e quindi importante capire come sia possibile, se lo e, generare un numero talmente alto di anticorpi da potersi assicurare la difesa da qualsiasi agente estraneo all'organismo, sia che esso sia comune all'ambiente e all'epoca in cui l'organismo vive, sia che possa improvvisamente generarsi ed attaccarlo. Non meritano piu che una citazione storica due ipotesi che furono formulate a riguardo: l'ipotesi germinale della diversita anticorpale, e l'ipotesi di mutazione somatica, che individuavano rispettivamente nel repertorio genetico trasmesso nel corso delle generazioni e nella mutazione di alcuni di questi geni la causa della grande diversita anticorpale; nessuna delle due risultava infatti convincente sul piano proprio dei grandi numeri, dal momento che la quantita complessiva di geni nel genoma umano, di cui quelli preposti alla codica di anticorpi dovrebbe essere un sottoinsieme, e di molto inferiore al numero dei possibili anticorpi producibili ( 10 contro 10 ). L'ipotesi attualmente accreditata, in grado di giusticare il grande numero di anticorpi possibili, e invece L'ipotesi di Ricombinazione Somatica; per comprenderne a pieno le potenzialita e pero necessario fare, come premessa, un breve cenno alla traduzione di una proteina, ossia al meccanismo della sua formazione a partire dall'informazione codicata nel DNA. 5 10 10 1.4 La Sintesi Proteica 1.4.1 Il DNA e l'RNA Il DNA e una molecola reperibile nel nucleo della cellula ed e costituita di due lamenti, o sequenze polinucleotidiche, ove il nucleotide e una molecola contenente una delle quattro possibili basi degli acidi nucleici: Timina (T), Guanina (G), Citosina(C), Adenina (A), ed uno zucchero, il deossiribosio. Nella molecola del DNA la T e sempre accoppiata con A e la G e sempre accoppiata con la C, in modo che il legame a idrogeno tra basi complementari poste sui due lamenti costituiscano il legame fra gli stessi, conferendogli la tipica congurazione spaziale a doppia elica. Una molecola di DNA contiene migliaia di geni, le unita codicanti le funzioni dell'organismo, costituiti ognuno di una sequenza precisa di nucleotidi. L'RNA e invece costituito di un unico lamento in cui si alternano sempre quattro basi degli acidi nucleici, solo che in esso la Timina e sostituita dall'Uracile (U) che ne prende il posto come complementare della A; lo zucchero nei nucleotidi e il ribosio. Questo lamento si forma sullo stampo di un lamento di DNA seguendo il principio della complementarita fra le basi, ed e lo strumento utilizzato dalla cellula per portare, ove serva, l'informazione genetica contenuta nel nucleo cellulare, minimizzando in questo modo il rischio di alterazione della stessa con le sue direttive per le cellule di tutto l'organismo. L'RNA non e una copia di tutto il lamento di DNA, ma solo di quelle porzioni utili ad esplicare una determinata funzione, e per potersi creare occorre che il doppio lamento di DNA si apra come una cerniera per la porzione contenente i geni da duplicare. Ogni molecola di DNA puo ospitare piu molecole di RNA in crescita contemporaneamente, anche dello stesso tratto genico, e questo processo di creazione dell'RNA e chiamato trascrizione. Una volta trascritto l'RNA serve alla sintesi delle proteine, ovunque nella cellula queste siano richieste, e a seconda del compito che esegue 11 viene denominato: RNA messaggero (mRNA),se funge da messaggero dei geni, RNA di Trasporto (tRNA), se sono molecole di RNA adibite al trasporto all'RNA messaggero degli aminoacidi specici, e inne RNA Ribosomico (rRNA), se viene a costituire una parte dei ribosomi, le strutture cellulari preposte alla sintesi proteica. 1.4.2 Il Meccanismo di Sintesi Per eettuare la trasformazione di codice genetico in sequenza di aminoacidi, il polipeptide, e necessaria una corrispondenza tra le basi del lamento e gli aminoacidi, corrispondenza che e stata biologicamente risolta, con ridondanza, attraverso le possibili combinazioni delle quattro basi degli acidi nucleici a tre a tre. Le 64 possibili triplette di basi, che prendono il nome di anticodoni se fanno parte di un lamento di tRNA e di codoni se appartengono al lamento di mRNA, messe in corrispondenza con i 20 possibili aminoacidi che compongono le proteine cosituiscono il codice genetico, universale per qualsiasi organismo vivente. In realta alcune triplette non specicano alcun aminoacido ma servono a segnalare la ne della codica di una sequenza di aminoacidi: sono i codoni nonsenso. La sintesi procede da un lamento di mRNA che, dopo essere stato trascritto ossia formato come copia complementare di una porzione di DNA, si associa ad un ribosoma ponendosi sulla sua supercie in corrispondenza del codone di inizio; quest'ultimo e riconosciuto dal ribosoma stesso in virtu di una precisa sequenza di basi, quelle del codone piu quelle adiacenti. La molecola di tRNA il cui anticodone e complementare al codone di inizio vi si attacca, e cos avviene per tutti i codoni successivi no al codone nonsenso che decreta la ne della traduzione. Man mano che gli aminoacidi, associati a ciascuna molecola di tRNA che raggiunge la supercie del ribosoma, si legano grazie ad enzimi che ne catalizzano la reazione chimica, il lamento di mRNA scorre sulla supercie ribosomica, in modo da 12 liberare l'anticodone che ha gia disposto il proprio aminoacido ed orire il codone successivo all'anticodone subentrante. Una volta raggiunto il codone nonsenso l'ultimo anticodone viene rilasciato unitamente alla proteina formatasi che poi se ne distacca. Poiche le strutture secondaria e terziaria dipendono dalla sequenza primaria degli aminoacidi, esse vengono formandosi contemporaneamente ai legami peptidici e quindi, una volta terminata la traduzione, la proteina ha gia assunto la sua forma denitiva. Due ultimi argomenti vanno esaminati prima di arontare il meccanismo con cui si crea la diversita anticorpale, e sono quello delle possibili trasformazioni che possono avvenire all'interno dei geni, che, per quanto nora detto, si puo intuire che si ripercuotono sulle proteine e la loro funzionalita, e quello delle modiche subite dall'mRNA trascritto prima della sua traduzione. 1.4.3 Possibili Alterazioni del Patrimonio Genetico Tra le tante possibili alterazioni che possono avvenire nella composizione chimica dei geni come nelle sequenze degli stessi, alcune sono le piu signicative e anche quelle coinvolte con maggiore probabilita nei meccanismi che si dovranno in seguito esaminare. Occorre inoltre distinguere tra genotipo, l'insieme dei geni, che e specico per ciascun individuo di una specie, e fenotipo, le caratteristiche siche a cui il genotipo da luogo, soggetto all'inuenza dell'ambiente che puo fare s che alcuni geni vengano espressi al posto di altri e quindi che alcune proteine vengano prodotte al posto di altre. Dunque qualsiasi alterazione genica avra conseguenze solo se i geni che le hanno subite saranno espressi, o, analogamente, se si tentera di produrre le proteine corrispondenti. Parleremo di ricombinazione genetica se siamo in presenza di un rimescolamento del materiale genetico ad opera dei tanti eventi di crossing-over che si originano durante la fase di produzione dei gameti, le cellule sessuali. Il processo di divisione cellulare che da origine ai gameti e 13 detto meiosi e procede per mezzo di due divisioni successive atte a ridurre il patrimonio genetico delle cellule glie alla meta di quello contenuto in qualsiasi altra cellula somatica. In ciascuna di queste divisioni si individuano piu fasi distinte: profase, metafase, anafase, telofase. Antecedente alla meiosi e una fase, detta interfase, durante la quale i cromosomi, normalmente non individuabili nel nucleo, si rendono visibili e si duplicano, prendendo il nome di cromatidi. Durante la Profase I, quella inerente alla prima delle due divisioni, i cromatidi di entrambi i cromosomi omologhi, ossia dei cromosomi della coppia che reca le medesime sequenze geniche, si uniscono, in corrispondenza di una regione chiamata centromero, formando una tetrade. I quattro cromatidi cos uniti si intrecciano, scambiandosi a volte segmenti genici omologhi: e l'evento di crossing-over (g. 1.3); i cromosomi risultanti non hanno perduto alcun gene ma hanno lunghe sequenze di geni dierenti da quelle presenti in principio. Il centromero trascina quindi la tetrade su di un piano equatoriale della cellula dove ha inizio la Metafase I, durante la quale si formano delle strutture brose, il fuso. Queste ultime, durante la fase di Anafase I, hanno lo scopo di guidare i cromatidi ai poli opposti della cellula, dopo che la tetrade e stata scissa nelle due coppie cromatide originale-copia. Questo spostamento avviene per mezzo del centromero che si orienta e muove lungo le bre del fuso. Durante l'ultima fase, Telofase I, si rigenera la membrana nucleare per ciascun nucleo mentre quella plasmatica si strozza al centro della cellula no alla scissione nelle due cellule glie. Alla ne, indipendentemente dagli eventi di crossing-over, in ciascuna cellula glia e presente meta dal patrimonio genetico originario, benche in duplice copia. Questo risultato e molto diverso da quello che si ottiene alla ne della mitosi, il processo di divisione delle cellule somatiche, poiche in quest'ultimo caso, non avendosi la formazione di tetradi ma solo di coppie originale-copia unite nel centromero, la Metafase fa in modo che lo sdoppiamento sul piano equatoriale delle coppie e 14 la migrazione dei singoli cromatidi verso ciascun polo, comporti la conservazione dell'intero patrimonio genetico in entrambe le cellule glie. La divisione di una cellula somatica si arresta qui, mentre la meiosi prosegue con un ulteriore sdoppiamento. Infatti ciascuna delle due prime cellule glie si divide con un processo molto simile alla mitosi ma che avviene in assenza di profase. La Metafase II procede cos con la separazione dei due cromosomi di ciascuna coppia ereditata dalle fasi I in corrispondenza del centromero e con il loro trascinamento verso i poli opposti della cellula. Seguono quindi, come in precedenza, l' Anafase II ed inne la Telofase II. Concludendo, se il risultato della divisione di una cellula somatica porta a due cellule glie recanti il medesimo patrimonio genetico originale, sia per il numero dei cromosomi conservati, cellule diploidi, sia per l'integrita degli stessi, al contrario la divisione cellulare che da origine ad un gamete fornisce quattro cellule glie aventi ciascuna meta del patrimonio genetico parentale, cellule aploidi, i cui cromosomi componenti risultano piuttosto diversi dagli originali a causa dei numerosi eventi di crossing-over intervenuti. Diversamente dal crossing-over la mutazione e una modica della sequenza di basi all'interno del gene, per cui la proteina prodotta e dierente dall'originale e se la mutazione ha interessato le cellule germinali tale modica viene trasmessa alla prole. Benche esistano dei sistemi di riparazione dei danni non sempre essi sono ecaci e in tale caso le modiche subite possono comportare tipi diversi di conseguenze. Se il codone codica per un aminoacido diverso dall'originale la proteina risultante puo essere non funzionale, avere uguale funzionalita, avere uguale funzionalita solo in particolari condizioni come ad esempio di temperatura, ma anche essere piu eciente; viceversa se il codone e stato trasformato in un codone nonsenso la sintesi proteica terminera prematuramente e la proteina risultante essendo incompleta non sara in grado di svolgere la proprie funzioni. 15 Figura 1.3: Il meccanismo di crossing-over: il patrimonio genetico iniziale e dato da: AA,BB per il primo individuo, e aa,bb per il secondo; il patrimonio nale degli individui e rispettivamente: AA,Bb e aa,Bb 1.4.4 Lo Splicing E un processo che permette di escludere da un lamento di mRNA trascritto quelle zone che non codicano per la proteina richiesta. Poiche l'mRNA e appunto una copia di parte del DNA e in esso che occorre ricercare le sequenze geniche corrispondenti; tali sequenze esistono e vengono denominate introni, mentre esoni sono chiamate le sequenze che hanno un corrispondente in sequenze di aminoacidi. Nel lamento di mRNA, in corrispondenza dei tratti codicati dagli introni e per eetto di particolari enzimi, si creano delle anse che si saldano alla base e successivamente vengono eliminate, permettendo in questo modo a regioni codicate da esoni di divenire adiacenti. Si pensa che tale meccanismo serva alla cellula per discriminare tra le proteine che deve produrre per il proprio funzionamento e quelle utili ad altre cellule, ed e giusticato dal fatto che nelle cellule degli organismi eucarioti i geni che codicano per la stessa funzione si 16 possono trovare a grande distanza sullo stesso cromosoma o addirittura su cromosomi diversi, e quindi per poterne attivare contemporaneamente la funzionalita e necessario sceglierli fra tutto l'RNA prodotto. 1.5 L'Ipotesi di Ricombinazione Somatica Postula l'esistenza di piu geni della linea germinale che siano in grado di codicare per uno stesso segmento di RNA, corrispondente ad una regione dell'anticorpo, in modo che il grande assortimento sia dovuto a tutte le loro possibili combinazioni combinate con tutte le possibili combinazioni di tutti i geni codicanti per tutti gli altri segmenti che concorrono alla formazione dello stesso anticorpo. Il nome dato a tale ipotesi viene dalla denizione di ricombinazione somatica: unione di due sequenze di DNA, separate nella cellula embrionale, in una unica sequenza attiva nella cellula somatica durante lo sviluppo ed il dierenziamento cellulare. E infatti la cellula produttrice di anticorpi giunge a maturazione quando si compone una combinazione fra le tante possibili del corredo genico che a partire da quel momento diviene il gene assegnato, codicante per l'RNA relativo all'anticorpo da produrre e tramandato all'atto della riproduzione cellulare. Per individuare il sito in cui deve avvenire la scissione o la giunzione dei segmenti di DNA esistono in esso delle sequenze speciche di nucleotidi, dette sequenze segnale, di sette nucleotidi, sequenza eptamero, o di nove nucleotidi, sequenza nonamero, che fungono appunto da segnale. Un ulteriore causa di variabilita la si riscontra nel meccanismo di giunzione dei segmenti, in quanto questa non avviene sempre in corrispondenza del medesimo nuleotide, ma si puo avere uno scarto di uno o due di essi, cos che ne conseguono due dierenti condizioni: una in cui la tripletta risultante in corrispondenza della giunzione varia di volta in volta ma le triplette a monte e a valle di essa rimangono invariate, e l'altra in cui tutte le triplette che seguono quella in corrispondenza della 17 giunzione sono stravolte nelle proprie sequenze. Le due giunzioni, che sono dette rispettivamente in fase e fuori fase danno origine ad una proteina utile, benche sempre diversa, nel primo caso ed ad una proteina nonsenso nel secondo caso. Un dato sperimentale a conforto dell'ipotesi in questione e l'aver rinvenuto, nelle cellule non produttrici di anticorpi, i geni per C e V in siti molto distanti fra loro e in forma di segmenti discontinui di DNA, al contrario di quanto avviene nelle cellule produttrici di anticorpi. Un'ulteriore causa di variabilita e poi stata riscontrata nell'alto rapporto di mutazione che si instaura dopo che il linfocita B e entrato in contatto con un antigene e si riproduce, provocando cambiamenti frequentissimi, con il susseguirsi delle generazioni, in una particolare regione dell'anticorpo a causa di cio chiamata ipervariabile. Occorre dire che ormai, date le numerose evidenze sperimentali, questa e gia molto piu che un'ipotesi, e passando in rassegna tutti i geni trovati e calcolandone tutte le possibili combinazioni, comprese quelle dovute agli eventi su citati, ci si puo rendere conto della potenza espressa da un tale meccanismo con un numero piu che ragionevole di elementi fondamentali. 1.5.1 I Geni per le Catene Leggere L Il gene per la regione variabile (g. 1.4) e diviso in due parti separate da una breve sequenza intercalare: la prima, indicata con L in quanto e detta leader, codica un segmento di testa idrofobo composto di diciassette-venti aminoacidi che serve a veicolare l'anticorpo attraverso la membrana cellulare per poi staccarsi; il secondo, indicato con V, codica per novantotto dei centootto aminoacidi della regione variabile, mentre i rimanenti sono codicati da un altro gene, indicato con J, posto a valle del precedente. Nel segmento codicante per la catena k si trovano varie sequenze LV distanziate fra loro da introni, quindi seguono cinque geni J in successione, anch'essi separati da sequenze intercalari, e inne il gene, indicato con C, per 18 la regione costante. Nel segmento codicante per la regione invece, dopo le sequenze LV, si ha una successione di quattro nel topo e sei nell'uomo geni C, ciascuno preceduto da un gene J, sempre separati da introni. La ricombinazione di questi geni da un gene unico nito, ottenuto scartando tutte le LV tranne una, e tutti i J precedenti quello che si congiunge a V con eliminazione dell'introne intermedio, cos da ottenere la sequenza di geni L, V/J, C separati da sequenze intercalari. La trascrizione del gene in RNA necessitera dello splicing, per l'eliminazione delle sequenze intercalari e degli eventuali J di troppo, per dare origine ad un mRNA maturo per la traduzione in proteina. Il prodotto di questa traduzione viene chiamato pero precursore della catena leggera, in quanto porta ancora con se quelle sequenze di aminoacidi codicati dalla porzione genica L, e si trasformera nella catena leggera che viene solitamente descritta dopo il distacco di questa porzione idrofobica. Per congiungere le due porzioni geniche L+V e J sono necessarie due dierenti tecniche adatte alle due differenti situazioni (g. 1.5): L precede V ed L segue V nel DNA; nel primo caso parleremo di cancellazione, poiche si crea un ansa di tutto il segmento genico frapposto, che si chiude alla base mettendo a contatto V e J e che inne viene eliminato; nel secondo caso parleremo di inversione perche, per ottenere la giusta sequenza LVJ e necessario che il lamento si ripieghi su se stesso in modo da portare la posizione di V vicina a quella di J e trasferire gli esoni di L e V sul segmento adiacente all'esone di J. Cos facendo si ha solo un trasferimento di geni mentre nel primo caso la porzione genica frapposta veniva persa. Il sito di congiungimento tra V e J, corrispondente al codone 96, e una regione ipervariabile, dal momento che il punto di giunzione si puo spostare di qualche nucleotide. Poiche agli estremi di ciascun gene sono presenti le sequenze segnale di eptameri e nonameri intercalate da sequenze distanziatrici di circa 19 undici o ventidue nucleotidi, si pensa che V e J si scelgano, magari con l'aiuto di enzimi, in virtu della complementarita di queste sequenze. Esse, unendosi ovunque eptameri e nonameri abbiano basi complementari, formano una struttura a cerniera che mette a contatto i due geni, e poi si stacca lasciandoli uniti. Se la ricombinazione di V e J da per prodotto un gene inattivo, con tutta probabilita si fa ricorso al gene sul secondo cromosoma. Normalmente infatti ha luogo quella che si chiama esclusione allelica, ove l'allele e ciascuna copia di un determinato gene su ciascun cromosoma della coppia, che implica che solo il gene di uno dei due cromosomi subisce la ricombinazione somatica; ma sperimentalmente si trova che in alcuni casi entrambi gli alleli la subiscano, cos che si e formulata l'ipotesi che questo avvenga quando la prima e fallita. La stessa ipotesi dovrebbe servire a giusticare l'esistenza delle due catene leggere k e , codicate su due diversi cromosomi, poiche sembra che il riassetto per il gene codicante per sia messo in atto solo una volta che quello per il gene codicante per k abbia prodotto un gene inattivo, come se esistessero quindi due meccanismi di tutela, uno in piu rispetto al solo allelico. Probabilmente e la stessa produzione di un anticorpo funzionale ad inibire il riassetto di . 1.5.2 I Geni per le Catene Pesanti H Per quanto riguarda la regione variabile esistono anche per H i geni L, V e J, ma un ulteriore segmento codicante per tredici aminoacidi e interposto fra V e J, il gene D, che codica gran parte della terza regione ipervariabile. Dunque in questo caso (g. 1.6) vi e ricombinazione sia fra V e D che fra D e J, ed inoltre si prevede non solo la perdita ma anche l'aggiunta di nucleotidi, grazie ad un enzima presente nella cellula solo durante la ricombinazione del gene per la catena H. Le regioni aggiunte sono indicate con N, cos che la sequenza genica nale della regione variabile e V N D N J. Perche il gene sia attivo occorre che N D N, che puo arrivare anche a trenta 20 Figura 1.4: Geni per la catena leggera L 21 Figura 1.5: Cancellazione ed inversione dei segmenti genici 22 nucleotidi, sia in fase nelle giunzioni. Si contano circa ottanta V, sei J, cinquanta D nell'uomo. Per quanto riguarda la regione costante che segue J si hanno in sequenza i geni: Mu, Delta, Gamma3, Gamma1, Gamma2b, Gamma2a, Epsilon, Alfa. Il gene Mu codica due tipi di RNA: il primo contiene la sequenza per la parte idrofoba della proteina che consente l'ancoraggio alla supercie cellulare dell'IgM, mentre il secondo no, sintetizzando l'IgM secreta. Cio e possibile perche ciascun gene per un tipo di regione costante e in realta codicato non in una sola ma in piu sequenze, alternate a sequenze non codicanti; dunque, se durante la fase di splicing dall'RNA trascritto all'mRNA maturo le regioni non codicanti vengono eliminate, un analogo meccanismo permette di escludere sequenze codicanti durante la fase di trascrizione e prima di quella di splicing. Inne si suppone che meccanismi analoghi regolino la trascrizione di qualsiasi altro gene della regione costante. 1.5.3 Un po' di Numeri E' importante, per supportare la teoria che abbiamo appena esposto, esaminare l'eettivo "carico di diversita" che essa e in grado di prevedere in seno alla popolazione di possibili anticorpi, e dunque: 1. Catena leggera (supponiamo di trattare la catena k poiche la e piu rara): circa 100 geni LV, 5 geni J, 1 gene C, un fattore 10 di variabilita associato alle giunzioni. Ne segue un totale di: 100 5 1 10 = 5 10 possibili catene L. 3 2. Catena pesante: 80 geni V, 6 geni J, 50 geni D, un fattore 10 di variabilita associato alle giunzioni, un fattore di variabilita 100 legato alle regioni N, 1 gene C. Ne segue un totale di : 80 6 50 10 100 = 24 10 possibili catene H. 6 23 Figura 1.6: Geni per la catena pesante H 24 Combinando tutte le possibili catene L con tutte le possibili catene H si conclude che possono esistere: 5 103 24 106 1011 possibili anticorpi dierenti, dato che rispecchia benissimo l'eettiva quantita di anticorpi presenti nell'uomo. Spiegato cosa sia e come venga creato un anticorpo occorre descrivere le cellule che lo generano, i linfociti B, e quelle che a queste sono strettamente collegate nel meccanismo di risposta immunitaria, i linfociti T ed i macrofagi, includendo le molecole come le linfochine e i peptidi codicati dai geni MHC, e inne i Sistema Complemento ed il meccanismo della selezione clonale, per capire come tutti questi elementi concorrano alla neutralizzazione dell'antigene. Una rappresentazione graca d'insieme in gura 1.7 illustra quanto sara descritto nei prossimi paragra. 1.6 Il Linfocita B Viene prodotto nel midollo osseo durante tutta la vita dell'organismo e presenta dei marcatori di supercie tipici che permettono di distinguerlo dal linfocita T; ha una vita media di qualche giorno se non incontra antigeni circolando nei vasi linfatici e sanguigni, altrimenti va incontro a maturazione e dierenziazione. Quando e ancora nel midollo osseo il linfocita B viene chiamato pre-linfocita B, in quanto presenta i geni per la catena H gia completi e recanti il gene Mu per la regione costante, ma i geni per la catena leggera ancora incompleti. Quando il proprio corredo genico specico e completo e presenta ancorate alla supercie le IgM e le IgD, il linfocita, che in questa fase e chiamato cellula B vergine, viene espulso dal midollo per giungere alla circolazione sanguigna e linfatica, e non va incontro a divisione cellulare se non viene a contatto con l'antigene. Se cio avviene, o meglio se gli anticorpi di supercie riconoscono 25 Figura 1.7: Quadro riassuntivo dei meccanismi immunitari 26 un antigene, il linfocita B vergine si attiva e comincia a riprodursi ogni otto- ventiquattro ore; in questa fase e detto blasto. Sulla sua supercie si rinvengono i recettori per le linfochine secrete dai linfociti Th (vedi oltre), i peptidi in cui e stato degradato l'antigene riconosciuto e il complesso MHC-II (vedi oltre). Se nei pressi del linfocita B e presente un linfocita Th con i recettori opportuni per il riconoscimento contemporaneo di un frammento dell'antigene e del complesso MCH-II come in un meccanismo a doppia chiave, allora ci sara produzione di linfochine da parte del Th che stimoleranno il blasto alla proliferazione ed alla dierenziazione in cellula memoria o plasmacellula. Le cellule memoria sono cellule B che rimangono permanentemente all'interno dell'organismo dopo che la cellula genitrice ha riconosciuto l'antigene, permettendo di conservare l'anticorpo con il paratopo ane ad esso anche dopo che e stato debellato. Se lo stesso antigene dovesse ripresentarsi una seconda volta ed incontrare la cellula memoria, questa ne sarebbe attivata cos come precedentemente era avvenuto con la cellula B vergine, ma i tempi della risposta immunitaria dierirebbero dai precedenti sia in rapidita che in ecienza. Queste dierenze fra la risposta primaria, corrispondente al primo incontro dell'anticorpo con l'antigene, e la risposta secondaria, corrispondente al secondo contatto antigene-anticorpo, sono rappresentate nel graco che segue, mentre nel graco successivo e riportato l'andamento della secrezione di anticorpi, che durante la fase primaria sono prevalentemente IgM e nella secondaria prevalentemente IgG. La plasmacellula e invece il linfocita B maturo per la produzione e secrezione degli anticorpi, che, in seguito all'azione delle linfochine sulla ricombinazione del DNA, comprenderanno anche gli anticorpi secondari IgA, IgE, IgG; nessun cambiamento avverra nel segmento relativo alla regione variabile. Inoltre, poiche ogni cellula attivata produce anticorpi appartenenti ad una delle possibili classi, e il tipo di classe corrisponde ad una 27 Figura 1.8: Andamento temporale della risposta immunitaria 28 Figura 1.9: Andamento temporale della produzione di immunoglobuline 29 risposta immunitaria ad un tipo specico di elemento patogeno, e poiche la ricombinazione e guidata dalle linfochine, ne segue che queste vengono prodotte in funzione del tipo di patogenicita. La vita di una plasmacellula e di alcuni giorni. 1.7 I Macrofagi Sono cellule che si trovano in tutti i tessuti, e nella circolazione sanguigna con il nome di monociti; generalmente sono le prime cellule che incontrano una sostanza estranea, e, senza alcuna specicita, la inglobano, cos come fanno per i detriti cellulari, per poi degradarli con l'ausilio di enzimi idrolitici e attacchi ossidanti. I peptidi risultanti dalle proteine degradate sono legate alle proteine codicate dall'MHC-II (vedi oltre) che li trasportano n sulla supercie cellulare, dove rimangono in mostra perche i linfociti Th possano riconoscerli. Se i peptidi risultano da proteine del "se", ossia dell'organismo stesso, essi saranno ignorati dai Th, che, al contrario, potranno riconoscere quelli provenienti dalle proteine del "nonse", attivandosi maturando e secernendo linfochine. 1.8 Il Linfocita T Queste cellule sono in grado di legarsi agli antigeni solo se questi sono ancorati alla supercie di un'altra cellula, ossia in una interazione cellula a cellula, ma non secernono anticorpi; infatti utilizzano per il riconoscimento delle molecole di supercie che ne costituiscono il recettore, e che sono costituite di due catena che nella maggioranza dei casi sono due glicoproteine chiamate e , ognuna divisa in due domini, uno variabile e l'altro costante. Altre due catene meno frequenti sono chiamate e . I geni che codicano per queste catene hanno conformazione analoga a quella dei geni per le catene H ed L degli anticorpi, con geni V, J, 30 D, sequenze di eptameri e nonameri, e anche in questo caso intervengono processi di trascrizione e splicing per ottenere la proteina richiesta; anche qui sono interessati cromosomi dierenti per , , e , mentre i geni di si mescolano a quelli di . Lo sviluppo del recettore ha luogo nel timo, dove, dopo il riarrangiamento genico delle catene e , viene ancorato all'esterno della cellula, e sottoposto a due processi di selezione che permetteranno alla cellula in uscita dal timo di riconoscere i soli peptidi del nonse solo se in associazione con quelli specici dell' MHC. All'uscita dal timo le cellule T non saranno piu soggette a ricombinazione somatica. La selezione, positiva, che avviene nel timo tende ad eliminare tutti i linfociti T recanti recettori non in grado di riconoscere sucientemente bene le proteine codicate dall'MHC caratteristiche di ciascun individuo; viceversa la selezione negativa e quella esercitata uccidendo tutte le cellule T con recettori ad altissima anita sia per i polipeptidi codicati dall'MHC che per quelli del se. La necessita, per i recettori dei linfociti T, di riconoscere l'antigene se appaiato in un complesso ad una struttura proteica codicata dai geni MHC, e l'inabilita al riconoscimento e del peptide MHC e dell'antigene separatamente, e detto riconoscimento congiunto. I geni MHC sono di classe I se il recettore e ancorato ad un linfocita citotossico e di classe II se appartiene ad un linfocita Th. Il linfocita presente nel timo, timocita, una volta espulso verso i tessuti periferici e ancora in una fase di immaturita, ovvero non e ancora in grado di ingrossarsi, dividersi e produrre linfochine, e per questa ragione e ancora chiamato precursore; la maturazione e una conseguenza dell'incontro e del riconoscimento di un antigene. In realta vi sono piu tipi di linfociti T, ognuno con funzioni speciche: il linfocita T citotossico o CTL o killer, il linfocita T helper o Th, il linfocita T soppressore o Ts, il linfocita T memoria. Il linfocita T citotossico riconosce ed uccide le cellule che recano sulla supercie l'antigene in complesso con un polipeptide di MHC-I; la 31 fase di riconoscimento, come detto, e svolta da un precursore che poi si clona in cellule killer, ove i cloni sono cellule geneticamente identiche alla cellula che li ha originati. La cellula recante l'antigene e distrutta in seguito all'azione di proteine, secrete dal CTL, in grado di formare canali ionici non specici nella sua membrana plasmatica, depolarizzandola e distruggendone cos l'equilibrio ionico e osmotico. Produce anche linfochine e presenta sulla supercie dei marcatori chiamati CD8, che si pensa siano attivamente coinvolti nel complesso MHC-I-antigene-recettoreCTL perche il CTL possa portare a buon ne il proprio compito. Il linfocita T helper riconosce i prodotti della degradazione dell'antigene ad opera di macrofagi e cellule B, che li espongono sulla propria supercie in complesso con polipeptidi di MHC-II, e di conseguenza secerne linfochine per stimolare le altre cellule coinvolte nella risposta immunitaria, quali CTL, e macrofagi, e la produzione di anticorpi da parte dei linfociti B. La fase di riconoscimento, sempre ad opera di un precursore, delle molecole presenti su un macrofago provoca l'attivazione del linfocita, che quindi si clona e, maturando, secerne interleuchina 2, ( IL-2 ), che serve all'autostimolazione per crescita autocrina. I tanti Th cos prodotti recano tutti recettori per un medesimo antigene, che comparira, come prodotto della degradazione dello stesso antigene, sui linfociti B che vi sono entrati in contatto, in modo che i due linfociti possano legarsi e la risposta immunitaria proseguire . I Th recano sulla supercie dei marcatori tipici chiamati CD4 che sono proteine di fondamentale importanza, poiche e stato constatato che la loro assenza puo compromettere la risposta all'antigene; questo fa naturalmente pensare ad un ruolo attivo nel complesso MHC-II-antigene-recettore Th. Si suppone inoltre che CD4 e CD8 siano presenti sul timocita contemporaneamente, e che siano soggetti ad una sorta di selezione facente s che solo uno di essi si attivi. Il linfocita soppressore inibisce l'attivita delle cellule B stimolate 32 dalle cellule Th, fornendo un meccanismo di retroazione negativa per autolimitare la risposta immunitaria. Il linfocita T memoria conserva traccia dell'incontro con l'antigene attraverso il proprio recettore per l'immunocomplesso epitopo-MHC. 1.9 Le Linfochine Sono dei peptidi, detti anche interleuchine, che stimolano la crescita e la maturazione delle cellule B e T. Appartengono alla piu vasta classe delle citochine che oltre ad esse comprendono le monochine; di queste l'IL-1 ( e ) svolge un ruolo nell'azione immunitaria. Ciascuna intrleuchina puo ricoprire piu ruoli e piu linfochine possono esercitarne il medesimo; la piu nota e l'IL-2 detta anche fattore di crescita dei Th, poiche ne stimola la crescita autocrina. Infatti qualora questi venissero attivati dalla combinazione del proprio recettore con il complesso MHC-antigene, un recettore per l'IL-2 comparirebbe sulla loro supercie, mentre le stesse interleuchine verrebbero contemporaneamente secrete. La comparsa di questi recettori solo in seguito a stimolazione del recettore per l'immunocomplesso permette di conservare la specicita dell'espansione clonale, mentre l'interazione dell'IL-2 con il proprio recettore comporta la proliferazione dei linfociti T; quando lo stimolo antigenico viene meno i T perdono questi recettori per l'IL-2 che di conseguenza diminuisce in quantita no ad essere non piu evidenziabile. Una seconda esposizione all'antigene induce una risposta delle linfochine molto piu rapida rispetto alla precedente. Qualche esempio delle possibili funzioni delle interleuchine sono dati qui di seguito, citando anche l'IL-1: IL-1 : stimola la sintesi delle proteine della fase acuta e la produzione di un pirogeno endogeno; e un cofattore nei processi di attivazione linfocitaria; IL-2 : stimola la crescita delle cellule T e la secrezione di anticorpi 33 dalle cellule B; Interferone : attiva i macrofagi; IL-4 : attiva le cellule B ed i macrofagi, stimola la crescita di T e induce la ricombinazione in o ; 1 IL-3 : stimola il dierenziamento delle cellule sanguigne; GM-CSF : stimola crescita e dierenziazione di granulociti e macrofagi; IL-6 : stimola la secrezione di anticorpi da parte delle cellule B; IL-7 : stimola la crescita delle cellule pre-B; IL-5 : Induce la ricombinazione del DNA per passare alla produzione di . 1.10 I Geni MHC Questi geni, tra i piu potenti fra i geni di istocompatibilita che condizionano il rigetto in caso di trapianti, nella loro globalita sono specici per ciascun individuo della specie, con alcune somiglianze fra familiari stretti. Le proteine codicate dai geni MHC presentano un sito nel quale si ssano i peptidi che provengono dalla degradazione dell'antigene, e sono di due diversi tipi in corrispondenza delle due classi di geni, MHC-I ed MHC-II. Il gene appartenente alla classe MHC-I, detto HLA da Human Leukocyte Antigens, codica la proteina, che permette l'identicazione del se da parte dei CTL, cosituita di due catene, di cui una costante e molto piccola chiamata microglobulina , e l'altra altamente variabile, polimorca; sono proteine presenti sulla supercie della maggior parte delle cellule, proprio perche costituiscono il bersaglio dei T citotossici deputati al rigetto. Il peptide che si ssa all'MHC-I proviene da proteine intracellulari come ad esempio quelle virali, da cui segue che i virus sono bersaglio dei CTL. La proteina codicata dai geni MHC-II e una doppia catena in cui, diversamente dalla 34 precedente, i due polipeptidi sono di uguale lunghezza ed entrambi polimorci; si rinviene soprattutto sulla supercie dei macrofagi, delle cellule dendritiche degli organi linfoidi e dei linfociti B. Il peptide che si ssa alla molecola codicata dall'MHC-II proviene da proteine extracellulari, come ad esempio quelle ottenute dai batteri, che in questo modo sono bersaglio dei Th. 1.11 Il Sistema Complemento E un complesso enzimatico che si attiva dopo il riconoscimento, da parte di un anticorpo, di un antigene cellulare, come puo essere quello di un batterio; lo scopo e quello di annientare tale cellula riuscendosi a ssare sulla sua supercie grazie proprio alla presenza dell'immunoglobulina, e innescando poi una successione di avvenimenti che portano alla completa distruzione cellulare. Oltre alla funzione protettrice che esplica per l'organismo quando agisce contro cellule estranee, esplica anche un ruolo negativo quando assale le cellule dello stesso organismo, come avviene, con l'alterazione dei tessuti, nel corso delle reazioni allergiche. I requisiti che deve soddisfare sono: 1. deve avere un'unita di riconoscimento in modo da poter rispondere alle molecole dell'anticorpo agente sull'antigene; 2. deve avere recettori per la supercie della cellula estranea; 3. eve essere attivo per un tempo molto breve cos da poter denneggiare solo le cellule che lo necessitino. Le proteine che lo costituiscono sono undici, indicate con: C1q, C1r, C1s, C2, C3, C4, C5, C6, C7, C8, C9, di cui le C1* costituiscono un'unita chiamata C1. L'azione nei confronti della cellula da eliminare si compone di tre fasi: riconoscimento, attivazione enzimatica, attacco. Riconoscimento : l'unita di riconoscimento e C1q che, combinandosi con un segmento di immunoglobulina che lega l'antigene, fa s 35 che C1r faccia da tramite per l'attivazione di un enzima posto su C1s , ove il trattino indica appunto l'attivazione enzimatica. Le immunoglobuline in gioco sono solo IgM e alcune IgG, poiche e suciente una sola molecola di IgM per legare C1q, ma ne necessitano due, fra le quali C1q fa da ponte, di IgG, ed e dunque ovvio che quest'ultimo sia il caso meno frequente; Attivazione enzimatica : interessa i fattori C2, C3, C4, che si attivano grazie a C1s . Esso induce infatti la divisione di C4 in due frammenti, uno grande, C4b, ed uno piccolo, C4a. Il primo possiede un sito attivo per il legame ad un recettore della membrana cellullare ma dalla vita breve, cos che solo pochi dei C4b, prodotti per eetto di un unico C1s , siano in grado di unirsi alla cellula, mentre gli altri si inattivano; questo permette di non danneggiare eventuali cellule che si trovassero nei pressi e che non dovessero subire tale infausta sorte. I frammenti C4b adsorbono i fattori C2, ma solo uno dei due frammenti in cui si scinde C2 ad opera di C1s dopo l'adsorbimento, C2a, gli rimane legato. Il complesso C4b,2a cos formatosi e di fatto un enzima e da questo momento e questo complesso che prosegue autonomamente rispetto al gruppo C1-anticorpo. Come enzima C4b,2a si combina con C3 e lo separa in due frammenti di cui il piu grande, C3b, rimane legato, e sorte analoga subisce C5 con il proprio frammento C5b, dal momento che e un enzima anche il complesso C4b,2a,3b . Tutti questi comlessi enzimatici sono tuttavia poco stabili, con emivite di poche minuti a temperatira ambiente, cosicche l'intervallo di tempo in cui ultimare l'aggregazione dei componenti del complemento e piuttosto breve; Attacco : la fase di attacco ha inizio con C5b legato, e prosegue con il legame di C6 e C7 e la separazione del complesso C5b,6,7 dal C4b,2a,3b ; dopo questa divisione il complesso C5b,6,7 si sposta su di un altro sito cellulare dove C8 si lega alla subunita 36 C5b del complesso e C9 a C8. Gia l'aggiunta di C8 provoca la disgregazione della cellula, ed in piu C9 ne aumenta notevolmente la velocita. Cio avviene perche la disposizione dei costituenti del complemento sul sito d'attacco e tale da formarvi un piccolo foro, circondato dai C5b, C6, C7, C8, attraverso il quale possono entrare gli ioni e con essi l'acqua per un processo osmotico. L'aggiunta di C9 aumenta le dimensioni del foro permettendo un ingresso piu rapido di ioni e acqua, no allo scoppio della cellula. Questo eetto, documentato come "effetto Donnan", consiste nel passaggio di H2O e sale, posti da un lato di una membrana semipermeabile, ossia attraversabile da particelle di piccole dimensioni ma non da grandi molecole, verso l'altro lato della membrana in cui e presente una soluzione di H2O, sale e proteine: la membrana cellulare normalmente non e semipermeabile, ma si comporta come tale per eetto del Sistema Complemento. 1.12 La Selezione Clonale E il meccanismo con cui, per quanto possa sembrare paradossale, l'antigene sceglie, tra i tanti anticorpi che incontra nell'organismo in cui e penetrato, quello che piu gli si adatta e che quindi meglio lo neutralizza. Dunque si parla di selezione perche l'antigene seleziona l'anticorpo piu appropriato fra tutte le molecole di anticorpo presenti, ancor prima della sua comparsa, sulla supercie delle cellule B. L'incontro antigene anticorpo stimola inoltre la cellula B a riprodursi clonandosi, in modo che le immunoglobuline prodotte da ognuna delle cellule glie siano identiche, con il proprio paratopo, a quella della cellula originaria: da qui il termine clonale. Nel caso in cui l'antigene fosse appartenuto ad una proteina dello stesso organismo la sorte della cellula B sarebbe stata la paralisi. I presupposti della teoria sono dunque: 37 1. il corpo elabora continuamente linfociti B che presentano immunoglobuline di supercie; 2. tutte le immunoglobuline sulla supercie di ciascuna cellula hanno medesima specicita di legame; 3. per qualsiasi determinante antigenico solo un piccolo sottoinsieme dell'intero gruppo di cellule B avra un anticorpo di supercie con cui legarlo. Il processo si sviluppa in due fasi, di cui la prima e indipendente dall'antigene, mentre la seconda vi dipende strettamente. Durante la prima fase di selezione e indispensabile la stimolazione da parte delle cellule Th perche B si trasformi in plasmacellula dopo l'incontro con l'antigene, e non si paralizzi. La seconda fase di selezione prevede che le cellule B che hanno incontrato l'antigene estraneo crescano, si dividano e secernino anticorpi, e quindi si clonino dopo essersi trasformate in plasmacellule o rimangano allo stato di cellule memoria. Una maggiore anita epitopo-paratopo fa s che la stimolazione della cellula recante quel preciso determinante anticorpale sia piu forte di quella ottenibile con anita minori, e dunque che la probabilita che detta cellula inneschi il proprio ciclo di riproduzione e secrezione anticorpale sia piu alta rispetto e quella delle altre. Cio comporta un aumento del numero di anticorpi ad alta specicita, e, con essi, dei legami ad alta anita con gli antigeni del medesimo tipo. Per di piu, durante la fase di riproduzione, nei segmenti di DNA corrispondenti alle zone ipervariabili degli anticorpi, a causa della estrema instabilita dei geni, ha luogo un elevato numero di mutazioni, con lo scopo di ottenere sagomature nella regione omologa della catena immunoglobulinica che si combinino sempre meglio con l'antigene. Potremmo considerare qust'ultima come la regolazione ne nella ricerca della migliore comlementarita. Pertanto questo e un meccanismo in cui la probabilita che gli anticorpi piu ani aumentino 38 di numero continua a crescere con la loro anita, incrementando in tale modo la precisione dell'azione immunitaria. Componendo tutti gli elementi descritti nora, emerge abbastanza compiutamente il disegno del meccanismo immunitario, almeno nei suoi tratti piu generali, ma puo essere utile darne un quadro d'insieme riassuntivo. 1.13 Il Ciclo della Risposta Immunitaria La risposta immunitaria ha inizio quando l'antigene viene a diretto contatto con svariate cellule dell'organismo come: le cellule bersaglio, cioe quelle cellule mirate in modo specico da un determinato virus; i macrofagi ed altre APC, cioe cellule presentanti l'antigene; i linfociti B con un anticorpo ane. In seguito sulla supercie di queste cellule compaiono le molecole risultanti dalla degradazione degli antigeni precedentemente inglobati, accoppiate a molecole codicate dai geni MHC. Se una di tale cellule e un macrogafo, molecole di origine antigenica vengono esposte sulla sua supercie unitamente a peptidi di MHC di classe II per poter essere individuate da un Th con recettore ane. A contatto avvenuto ha inizio la secrezione di interleuchine da parte del linfocita Th per autostimolarsi alla crescita e prepararsi alla moltiplicazione cellulare, e contemporaneamente per sollecitare il macrofago alla emissione di ulteriori linfochine che coadiuvino quelle da lui prodotte. La quantita di recettori per le interleuchine cresce all'aumentare delle concentrazioni di queste e con essa l'entita della stimolazione. Si ha pero un altro eetto conseguente alla loro liberazione che consiste nella stimolazione delle cellule ad esse sensibili che si trovassero nei dintorni, dando origine non piu ad una stimolazione specica ma cosiddetta parzialmente non specica, in quanto mancante del contatto diretto con l'antigene. E dunque, quando l'antigene e in piccole quantita la specita della risposta e alta, rimanendo circoscritta alle sole cellule 39 che sono state in grado di stabilirvi un contatto diretto; viceversa a grandi quantita di antigene introdotto nell'organismo corrisponde uno stimolo ingente, a cui segue una grande concentrazione di interleuchine che, diondendo, riescono a raggiungere anche cellule che tale antigene non l'hanno incontrato. Questa stimolazione anche se non specica porta comunque tutte queste cellule a riprodursi, cos che la loro quantita nella circolazione vascolare aumenti considerevolmente insieme alle dimensioni di linfonodi e milza. Tra le cellule stimolate dalle linfochine vi sono, oltre a macrofagi e linfociti T, anche i linfociti B, e dunque, se lo stimolo e non specico veranno secreti anche molti anticorpi a bassa specicita. Cio avviene con lo scopo di creare reazioni crociate fra tutti gli anticorpi presenti, poiche, essendo l'incontro con un anticorpo specico piuttosto rara, nel caso di un ingente quantita di antigeni il sistema reagisce mettendo in campo tutte le proprie forze, nell'intento che tanti eventi concomitanti, anche se non i migliori auspicabili, abbiano un eetto complessivo soddisfacente. Tornando al meccanismo di risposta specica, occorre che il linfocita B, per poter essere stimolato dalle interleuchine, si trovi a breve distanza dal linfocita Th che le produce e questo puo avvenire in due casi: il primo e quello in cui B si lega ad un complesso antigeneMHC-I posto sul medesimo macrofago occupato da Th, situazione chiamata ironicamente "tre in un letto", ed il secondo quando il linfocita TH si lega non al macrofago ma direttamente al linfocita B che, avendo precedentemente incontrato l'antigene libero, ne mostra frammenti sulla sua supercie in unione con peptidi di classe MHCII. In seguito alla stimolazione delle linfochine, il linfocita B matura trasformandosi in blasto, e quindi si clona e secerne anticorpi. Il clone puo divenire plasmacellula matura, con l'unico compito di produrre ingenti quantita di anticorpi, oppure divenire cellula memoria, che, dopo la fase iniziale di secrezione, si arresta conservando i recettori di membrana e l'aspetto simile a quello di un linfocita vergine. 40 Da cosa dipenda tale dierenziazione non e ancora noto. Nel caso in cui il linfocita B incontrato dal linfocita Th sia una di tali cellule memoria, gli anticorpi secreti saranno gia ad elevata specicita; se poi si considera che trovare un paratopo ane in assenza di tali cellule e un evento raro, e che, viceversa, esso diviene subito piu probabile quando un certo numero di esse si genera e rimane in circolo, si capisce perche la risposta secondaria sia maggiormente rapida ed ecace rispetto alla primaria. Gli anticorpi liberi in soluzione ed i T citotossici completano l'opera di annientamento dell'intruso, i primi innescando il meccanismo del Sistema Complemento, i secondi legandosi al complesso antigene-peptide di classe MHC-I mostrato da una qualsiasi APC e quindi secernendo i fattori litici destinati alla lisi della sua membrana plasmatica. Se il CTL si lega ad una APC a cui e contemporaneamenta legato un linfocita Th, viene stimolato alla crescita ed alla proliferazione dalla secrezione di interleuchine di questi. In questo modo anch'essi possono moltiplicarsi e tramandare il proprio recettore ad una discendenza sempre piu numerosa con l'avanzare delle generazioni. L'aspetto negativo di questo complesso sistema di difesa emerge quando si tenta di innestare un organo o un tessuto su di un altro essere della stessa specie. Infatti puo avvenire che un peptide della classe MHC dell'uno sia identicato come un complesso antigeneMHCproprio dall'altro, innescando la risposta immunitaria sia dei T citotossici soli che di entrambi, Th e CTL coalizzati, con la conseguente distruzione delle cellule estranee. Ma d'altronde al sistema immunitario, nel corso dell'evoluzione, non e mai stata fatta richiesta di una simile tolleranza, dal momento che i trapianti, se si eccettua il caso della gravidanza, non e un fenomeno presente in natura. 41 Capitolo 2 Algoritmi Genetici Gli algoritmi genetici (GA) [Hol75, Gol89] sono algoritmi di ricerca che, mimando alcuni meccanismi biologici fondamentali, quali il principio di selezione naturale, il crossing-over e la mutazione genetica, si propongono da un lato, come mezzo utilizzabile per simulazioni di sistemi biologici o di vita articiale, e dall'altro come strumenti di ricerca dei punti di estremo nello spazio delle soluzioni di un qualsivoglia problema. Il loro uso necessita di un processo preliminare di astrazione delle proprieta degli oggetti che si devono trattare, sia che esse siano esprimibili qualitativamente, sia che lo siano quantitativamente, per ottenerne una rappresentazione sottoforma di stringhe codicate. Queste vengono trattate come se fossero individui geneticamente caratterizzati, facenti parte di una popolazione di cui si osserva l'evoluzione nel corso del tempo, le generazioni. A questa evoluzione contribuiscono il rimescolamento genico, con il proposito di originare nuovi individui per la generazione successiva, la mutazione e quindi la pressione evolutiva attraverso il processo di selezione, che ne conserva tendenzialmente quelli mostratisi piu adatti all'ambiente. Tutti questi meccanismi coinvolti nei processi evolutivi presentano eventi di tipo casuale. Con una terminologia piu orientata all'algoritmica si possono descrivere i GA come processi di apprendimento collettivo all'interno 42 di una popolazione di individui, ciascuno dei quali rappresenta un punto nello spazio delle soluzioni potenziali al problema posto. La popolazione, arbitrariamente inizializzata, e che evolve verso regioni sempre migliori dello spazio di ricerca per azione degli operatori di selezione, mutazione e crossover, come viene chiamato in questo ambito il crossing-over, misura la sua capacita adattiva sulla base dell'informazione fornita dall'ambiente sulla qualita, tness, dei punti esplorati; gli individui a tness piu elevato saranno favoriti dal processo di selezione per accoppiarsi e riprodursi, dando origine ad una discendenza recante un patrimonio genetico che sia un misto di quello parentale. Una formalizzazione piu rigorosa dell'algoritmo puo essere fornita utilizzando le seguenti notazioni: f : G <n ! < ,la funzione obiettivo ovvero quella che sintetizza il problema in esame e che ci si propone di ottimizzare, con ~x 2 G; : I ! < ,la funzione di tness con I spazio degli individui ed ~a 2 I ; I dipende dalla codica scelta e nel caso di codica binaria con stringhe di lunghezza l, si ha: I = f0; 1gl. E importante sottolineare che f e non sono necessariamente uguali, ma f concorre al calcolo del valore di unitamente ad elementi come la decodica degli individui e lo scaling (vedi oltre). La codica binaria e appropriata per l'ottimizzazione di funzioni pseudobooleane, ma e stata ed e ampliamente utilizzata anche per ricerche a carattere non pseudobooleano, come nel caso dei problemi di ottimizzazione di parametri deniti su di uno spazio continuo, poiche, oltre all'estrema semplicita d'uso, sembrava accettato che permettesse una piu eciente esplorazione dello spazio delle soluzioni[Gol89]; in verita tali conclusioni sono state contestate in seguito da Antonisse[Ant89]. L'uso di parametri continui, deniti sull'insieme I = Xin [ui ; vi] =1 43 <n , necessita di una trasformazione della codica da binaria a reale che viene realizzata tramite una funzione di decodica lx i : f0; 1glx ! [ui ; vi ] che applica i segmenti binari di lunghezza lx agli intervalli reali [ui ; vi ]. Tipicamente tale funzione e della forma: Plx j lx i (i1 ; : : : ; ilx ) = ui + (vi 1 j =1 j 2 ; ui ) (2 lx 1) ove l = nlx e la lunghezza totale dell'individuo, lx determina l'accuratezza del valore decodicato e puo essere diverso per ciascun segmento di un individuo, ed ai (i : : : ilx ), con i = 1; : : : ; n; 1 P (t) f~a (t); : : : ;~a (t)g, la popolazione alla generazione t, con ~ai (t) 2 I e 1 e 1 che indicano le dimensioni rispettivamente 1 della popolazione genitrice e della progenie; ss : (I [ I ) ! I ,l'operatore di selezione, applicato per scegliere + la popolazione genitrice della generazione successiva con s indicante un insieme di parametri di controllo; durante il momento di valutazione, la funzione di tness e calcolata per tutti gli individui della popolazione. L'operatore di selezione ricopia nella popolazione successiva le stringhe scelte in modo casuale ma in accordo con i valori di tness ricevuti; questo accordo e generalmente proporzionale a detti valori e puo essere ottenuto costruendo una roulette avente tanti settori quante sono le stringhe, ognuno proporzionale al tness della stringa stessa. Tanti giri di ruota quanti debbono essere gli individui nella popolazione sceglieranno i candidati alla riproduzione. cc : I ! I ,l'operatore di crossover che puo essere controllato da parametri addizionali indicati con c. L'operatore di crossover agisce sulle stringhe destinate alla riproduzione accoppiandole casualmente e scegliendo per ciascuna coppia, sempre in modo casuale, un punto di taglio rispetto 44 al quale scambiare, fra i componenti la coppia, una delle sottostringhe corrispondenti. I punti di crossover possono essere anche piu di uno, ma in questo caso si esegue una scelta casuale del primo segmento da scambiare, proseguendo poi scambiando segmenti alterni e considerando le stringhe chiuse agli estremi e questi come un tutt'uno se il numero di tagli deciso fosse pari. mm : I ! I ,l'operatore di mutazione controllato dai parametri m . L'operatore di mutazione esegue una scelta casuale delle stringhe di cui modica, sempre casualmente e con modalita dipendenti dalla codica scelta, uno degli elementi costituenti; nel caso della codica binaria cio si risolve nel tramutare 1 in 0 e viceversa. L'importante funzione di questo operatore e di recuperare eventuali stringhe potenzialmente importanti prematuramente tralasciate durante l'esplorazione dello spazio di ricerca, e di facilitare l'evasione da una regione in cui la ricerca ristagni senza che siano stati raggiunti i risultati ottimali. Sia la mutazione che il crossover possono essere ridotti ad operatori locali: m0m : I ! I ed c0c : I ! I , che generano un solo individuo. ee : I ! fvero; falsog ,il criterio di termine in base al quale decidere quando ultimare il ciclo algoritmico. Anche in questo caso e rappresenta un insieme di parametri addizionali. Questo criterio e necessario per decidere quando interrompere il processo evolutivo giudicando se le regioni individuate durante l'indagine siano o meno quelle coincidenti con lo scopo prepostosi. Possiamo riassumere con passi logici il meccanismo algoritmico come segue: 45 t := 0; inizializza P (0) := f~a1 (0); : : : ;~a (0)g 2 I ; valuta P (0) : f(~a1 (0)); : : : ; (~a (0))g; while (ee (P (t))) 6= vero) do seleziona: P 0 (t) := ss (P (t)); crossover: P 00 (t) := cc (P 0 (t)); muta: P (t + 1) := mm (P 00 (t)); valuta P (t + 1) : f(~a1 (t + 1); : : : ; (~a (t + 1))g; t := t + 1; endwhile. Molte variazioni ed aggiunte sono state fatte a questo algoritmo di base, chiamato anche GA semplice, sempre ispirandosi a meccanismi di variabilita biologica e con alterni risultati; sono reperibili in letteratura[Gol89, Gre87a, Sch89, BB91], ma non ne sara fatto cenno dal momento che non ne e stato fatto uso. La tabella 2.1 riassume sinteticamente quale signicato sia da attribuire ad alcuni termini di origine biologica comunemente impiegati: Tabella 2.1: Termini biologici e termini algoritmici Signicato BIOLOGICO ALGORITMICO cromosoma stringa gene caratteristica allele valore della caratteristica loco posizione nella stringa genotipo struttura fenotipo struttura decodicata Alcune caratteristiche salienti del GA vanno sottolineate perche se ne comprenda la potenza ed il sempre piu ampio utilizzo in molteplici settori d'indagine. La ricerca procede: 46 1. da popolazioni di punti e non da un unico punto, il che comporta un'indagine svolta parallelamente in piu regioni dello spazio, minimizzando la possibilita di riconoscere in un estremo locale un estremo assoluto. 2. facendo uso di \informazione retribuita", la funzione obiettivo, e non sulla base di ausili matematici; e questo un aspetto estremamente importante, sul quale si fonda gran parte della robustezza del GA, e della sua essibilita legata all'universalita della metodica, permettendo di arancarsi da tutte quelle condizioni di idealita necessarie all'applicazione del calcolo analitico, quali ad esempio continuita e derivabilita, che raramente si riscontrano durante l'esame dei problemi reali. 3. con regole probabilistiche di transizione, che non comportano aatto una ricerca casuale di punti nello spazio da esplorare, ma bens che agiscono da guida in regioni di esso che si siano dimostrate promettenti. Un esempio semplice puo chiarire molto bene quanto detto nora. Si voglia trovare il massimo della funzione f (x) = x , con x 2 [0; 31], codicando x con una stringa binaria di 5 bit ed assumendo come funzione di tness la funzione stessa; le tabelle 2.2 e 2.3 riassumono tutte le quantita coinvolte nel processo di calcolo del GA nel passare da una generazione iniziale a quella successiva; l'eetto dell'operatore di mutazione, ininuente con un numero cos basso di geni, e stato trascurato. Si noti che in un solo passaggio il tness medio e passato da 293 a 439, ed il tness massimo da 576 a 729 e che cio e avvenuto grazie al rimescolamento di due stringhe recanti, rispettivamente, le sequenze 11*** e ***11, da cui e derivata la stringa 11011 di tness quasi ottimale. Un cenno, seppur breve, e inne necessario a quell'insieme di tecniche studiate per ovviare ad alcuni inconvenienti che, in relazione 2 47 Tabella 2.2: Prima fase: selezione Identicativo Popolazione della Stringa Iniziale x f (x) 1 2 3 4 Totale Media f Massimo 13 24 8 19 169 576 64 361 1170 293 576 01101 11000 01000 10011 Prob. Selezione Quantita Attesa Quantita Selezionata fi ) (P ( ffi ) con Roulette fj 0.14 0.49 0.06 0.31 1.00 0.25 0.49 0.58 1.97 0.22 1.23 4.00 1.00 1.97 1 2 0 1 4 1 2 Tabella 2.3: Seconda fase: crossover Identicativo Popolazione Accoppiamento Sito di Crossover Discendenza x f (x) della Stringa Successiva (Selezione Casuale) (Selezione Casuale) 1 0110-1 2 4 01100 12 144 2 1100-0 1 4 11001 25 625 2 11-000 4 2 11011 27 729 4 10-011 3 2 10000 16 256 Totale 1754 Media f 439 Massimo 729 alla funzione di tness, possono in vari modi ostacolare la convergenza, rimandando alla bibliograa per ulteriori approfondimenti [Gol89, BBM94]. Quando il calcolo della funzione di tness si dimostra complesso e magari lento, puo essere opportuno sostituire alla funzione di tness una sua valutazione approssimata, nella speranza di sopperire alla minor precisione con la numerosita delle valutazioni; tecniche dette di tness scaling, windowing e ranking si propongono di modicare la funzione di tness in modo tale da comprimere o amplicare le dierenze fra i valori che essa assume nei vari punti e 48 si adottano, rispettivamente, qualora l'algoritmo converga prematuramente in un ottimo locale, e quando la convergenza si mostri particolarmente lenta. Il primo caso puo presentarsi quando ci sia uno squilibrio iniziale di tness in favore di un individuo, cos che, in forza della limitatezza della popolazione, che non consente una ricerca parallela sull'intero spazio ma solo su una parte limitata di esso, l'esplorazione si sposti in regioni sempre di convergenza ma non ottimale. Viceversa, la convergenza puo risultare lenta, sebbene l'algoritmo abbia centrato la regione contenente il massimo, senza pero riuscire ad individuarlo perche le dierenze con i valori di tness dei punti che sono prossimi ad esso non sono sucientemente apprezzabili. Purtroppo a tutt'oggi non esiste una teoria generale che sia in grado di giusticare esaustivamente il comportamento degli algoritmi genetici; tuttavia una parziale spiegazione puo essere rintracciata nel teorema dello schema di Holland[Hol75], detto anche Teorema Fondamentale. 2.1 Il Teorema dello Schema Viene denito schema una precisa sequenza di alleli in una stringa che sia identicativa di una classe di stringhe. Cio e ottenuto aggiungendo agli elementi dell'alfabeto scelto il metasimbolo con il signicato di \qualsiasi elemento appartenente all'alfabeto". Un semplice esempio facente uso della codica binaria f0 1 g, alla quale continueremo a riferirci anche in seguito, potrebbe essere lo schema 10 10, che compendia le stringhe 100100; 101100; 100101; 101101. L'aggiunta del metasimbolo fa in modo che con un alfabeto di cardinalita K esistano (K + 1)l , con l lunghezza della stringa, possibili schemata contro le K l possibili stringhe; inoltre in una popolazione di n individui codicati nell'alfabeto f0 1g, esistono tra 2l e n2l schemata a seconda della diversita delle stringhe, poiche ciascuna di esse appartiene ad una famiglia di 2l schemata, in quanto ogni allele, oltre 49 al proprio valore, comprende anche il metasimbolo . Denendo poi lunghezza di denizione (H ), con H indicante lo schema, la distanza fra gli alleli, diversi da , piu esterni dello schema, e ordine dello schema o(H ) il numero di alleli 0 e 1 presenti in esso, la comprensione dell'eetto che sugli schemata hanno gli operatori fondamentali dei GA produrra il teorema cercato. Siano P (t) la popolazione al tempo t ed m il numero di stringhe rappresentate da H al tempo t cos che m = m(H; t); una stringa ricopiata in accordo al proprio tness in modo proporzionale si riprodurra con probabilita pi = Pfi fj , con fi =valore di tness della stringa i, cos j che, scegliendo dalla popolazione P (t) un numero n di individui con ripetizione per generare la discendenza: Pm(H;t) nf (a (t)) t)nf (H ) Pn m(H; t + 1) = j=1Pn f j = m(H; f i=1 i i=1 i ove aj (t) indica il j-esimo individuo alla generazione t ed f (H ) il valor medio del tness delle stringhe contenute in H . Essendo inoltre Pn f = in fi il valor medio di tness della popolazione, possiamo concludere che: =1 m(H; t + 1) = m(H; t) f (H ) ; f ovvero che la quantita di stringhe contenute in uno schema H aumentera nella generazione successiva solo se il loro tness medio sara maggiore del tness medio della popolazione. Un esempio semplice ma signicativo della potenza di questa formula si ha supponendo che il valor medio del tness di uno schema in crescita sia del tipo f (H ) = f + cf , che comporta: m(H; t + 1) = m(H; t)(1 + c) = (1 + c)t+1 m(H; 0) ovvero una crescita esponenziale di m(H; t) con le generazioni, o decrescita nel caso in cui c fosse negativo. Ma quanto mostrato e l'eetto del solo operatore di selezione, che incrementa il numero di elementi a tness maggiore e decrementa quelli a tness minore, operando parallelamente su molti schemata, senza pero inserire elementi di novita, come e compito del crossover. 50 Quest'ultimo agisce operando un taglio, all'interno degli estremi denenti la lunghezza di denizione, con una probabilita pd = l H , poiche l 1 sono i possibili siti di tutta una stringa in cui il taglio puo venire a trovarsi, mentre (H ) sono quelli relativi ai loci compresi entro gli estremi su cui e calcolata la (H ); di questa probabilita occorre tenere conto perche solo se il punto di crossover viene scelto in corrispondenza di questi siti lo schema, completamente disordinato, non si conserva. Tenendo inoltre conto delle probabilita della stringa di essere sottoposta a crossover, pc, e di essere accoppiata, pa , ne risulta una probabilita di sopravvivenza: ( ) 1 ps = 1 pcpa pd 1 pcpd = 1 pc l (H1) : Da cio segue quindi una stima di m(H; t + 1) che tiene conto contem- poraneamente sia del crossover che della selezione : m(H; t + 1) ps m(H; t) f (H ) : f Inserendo inne l'apporto dato dalla mutazione, poiche la probabilita di sopravvivenza di tutti gli alleli 0 ed 1 in una stringa e: (1 pm )o H ' 1 pm o(H ) per pm 1, essendo pm la probabilita di mutazione di un singolo allele 0 o 1, ed essendo questi in quantita pari a o(H ), si ottiene: ( ) m(H; t + 1) m(H; t) f (H ) [(1 pc l (H1) )(1 pm o(H ))] ) f m(H; t + 1) m(H; t) f (H ) [1 pc l (H1) pm o(H )]: f E questa la formulazione del Teorema dello Schema, che indica come gli schemata aventi un tness medio al di sopra di quello medio della popolazione, piccola lunghezza di denizione e basso ordine, si propaghino durante le generazioni; se poi vale una legge lineare di tness, tale propagazione e di tipo esponenziale. Agli schemata aventi tutte queste caratteristiche viene dato il nome di building blocks ovvero di mattoni fondamentali, ed il risultato piu importante che li riguarda concerne il numero di schemata che implicitamente si trattano parallelamente durante l'elaborazione degli 51 n elementi della popolazione e che si dimostra essere n3 . Questo fenomeno, che Holland chiamo di parallelismo intrinseco, e alla base della potenza e della robustezza dei GA. 2.2 Le Nicchie Ecologiche Quello delle nicchie ecologiche e un argomento di estrema rilevanza ed attualita, poiche ampia le potenzialita di applicazione dei GA che si sono dimostrati ecaci e robusti nella risoluzione di problemi di ottimizzazione globale, ma inecaci nel trattare situazioni modellizzabili con funzioni multimodali in cui la conoscenza delle mode fosse un requisito essenziale. L'importanza di queste problematiche si constata sicuramente in ambito biologico, e piu in generale per qualsiasi sistema evolutivo, che come tale esige, come condizione per la propria perpetuazione, la capacita di mantenimento di una suciente variabilita fra gli elementi che lo compongono. Tale diversita, in una rappresentazione del sistema come popolazione di individui, permette infatti, se non ai singoli, alla popolazione nel suo insieme, molte possibilita di adattamento ad eventuali modiche che intervengano nei fattori ambientali, attingendo a quegli individui di volta in volta piu idonei o con piu rapide capacita di adattamento. Proseguendo nell'analogia con i sistemi biologici, parleremo di specie come dell'insieme degli organismi con caratteristiche comuni, di speciazione come del processo attraverso cui una singola specie si dierenzia in piu sottospecie, ciascuna occupante una precisa nicchia ecologica, ove per nicchia si intende per l'appunto, una regione in grado di fornire le risorse necessarie al loro sviluppo e mantenimento. Esiste di conseguenza un rapporto strettissimo tra la dierenziazione ambientale in nicchie e la speciazione, poiche la limitatezza ed il depauperarsi delle risorse, magari in seguito a sovrappopolazione, comporta la migrazione verso regioni in grado di orire migliori aspettative di vita. 52 Queste tematiche sono state arontate nell'ambito degli algoritmi genetici seguendo due approcci dierenti, il primo orientato a modicare la struttura dell'algoritmo, di cui sono esempi: la preselection di Cavicchio[Cav70], il crowding's scheme di DeJong[DeJ75], il restricted mating di Booker[Boo82] ed il local mating di Davidor[Dav91], il secondo che introduce una valutazione del tness individuale in modo tale che esso risulti dipendente, esplicitamente[GR87, Deb89, Gol89, Mah93, DG89] o implicitamente[SFP93b, FJSP93], dai rimanenti membri della popolazione; in questo caso si parla di tness condiviso (o tness sharing). Se in un GA semplice, ciascun individuo e valutato in accordo ad una singola funzione di tness scalare che sia indipendente dagli altri membri della popolazione, possiamo concepirne il compito come una ottimizzazione della somma di detti tness, cos che la popolazione ottimale consista interamente di copie dell'individuo migliore; viceversa quando il tness degli individui e soggetto alla loro interazione reciproca, siamo in presenza di un meccanismo co-evolutivo o coadattativo, e quindi ad obiettivi multipli, che non puo generalmente essere rappresentato mediante un'unica misura scalare del tness della popolazione. Osserviamo quindi che, per meglio riprodurre la dinamica evolutiva di sistemi biologici, che come tali sono coevolutivi e/o co-adattivi, e necessario introdurre un termine di accoppiamento nella valutazione dei tness, in modo implicito od esplicito, come usualmente si ritrova nella modellistica matematica che fa uso dei sistemi di equazioni dierenziali per lo studio della dinamica delle popolazioni, un esempio per tutti le equazioni di LotkaVolterra per il modello preda-predatore. 2.2.1 Il Fitness Sharing Il meccanismo di tness condiviso realizza una suddivisione in nicchie diminuendo il valore della funzione obiettivo di un individuo, ovvero il suo tness non condiviso, in funzione della numerosita degli 53 individui a lui vicini in senso genotipico o fenotipico. Questa distinzione comporta una denizione iniziale di metrica per le stringhe cromosomiche nel primo caso, e per i parametri decodicati (o punti) nel secondo caso; poiche le due metriche non necessariamente coincidono, possono risultarne dierenze nell'ecacia dell'algoritmo[DG89]. Quando il meccanismo di condivisione viene realizzato attraverso una trasformazione esplicita sulla funzione obiettivo, allora si parla di sharing esplicito, mentre se la condivisione e racchiusa nella espressione funzionale o procedurale della funzione obiettivo, si parla di sharing implicito. Di quest'ultimo si discutera in seguito, analizzando il caso particolare trattato in questa ricerca, mentre qui di seguito si approfondiscono gli aspetti del tness sharing esplicito[DG89, Deb89]. La funzione di tness condiviso di ciascun individuo e cos denita: fsh;i = mfi (2.1) i ove: fi f (i) rappresenta la funzione obiettivo di un individuo i, mi = N X j =1 sh(di;j ) rappresenta il conteggio di nicchia per l'individuo i, N la dimensione della popolazione, ed 8 < 1 ( di;j ) sh se di;j sh sh sh(di;j ) = : 0 altrimenti il valore di condivisione tra gli individui i e j separati da una distanza di;j ; sh rappresenta il raggio di una sfera centrata sull'individuo i, ossia il raggio stimato delle nicchie, all'interno delle quali gli individui incidono reciprocamente sui valori di tness; sh determina 54 1 α α α α α 0.8 = 1/3 = 1/2 = 1 = 2 = 3 0.6 sh(d i,j ) 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 d i,j σsh Figura 2.1: La funzione di sharing esplicito l'andamento della legge di potenza e quindi la \forma" della nicchia. Gli andamenti per alcuni valori si sono riportati in gura 2.1. Il risultato del procedimento di tness condiviso tende a suddividere la popolazione sui molteplici picchi, ovvero le nicchie, in proporzione all'altezza dei picchi stessi. Questa metodica e stata applicata con successo in parecchi ambiti, soprattutto monodimensionali, ma sore della impossibilita di svolgere una ricerca completamente cieca, come sarebbe usuale ed auspicabile per i GA, necessitando della conoscenza iniziale di alcuni parametri fondamentali quali ed . Vale la pena di ritornare un momento alle relazioni esistenti fra funzione di tness condiviso e non condiviso e fra le funzioni esprimenti i due diversi tipi di tness sharing, per sottolineare alcune 55 dierenze di una certa importanza che emergono quando si studia il comportamento del GA in relazione al parametro dimensione della popolazione. Nel caso infatti di una ricerca dell'estremo globale, la funzione obiettivo non introduce alcuna dipendenza dal numero di individui presenti nella popolazione, cos che le variazioni di questo valore si riettono unicamente sulla qualita delle prestazioni dell'algoritmo; se esso e infatti troppo piccolo, e elevato il rischio di convergenza su estremi locali, cos come se e troppo alto, la velocita di convergenza puo risentirne negativamente, sebbene in questo caso possa aumentare la precisione dell'individuazione del valore ottimale. In questi casi e dunque auspicabile un'analisi preliminare per l'individuazione del valore che comporti il migliore compromesso fra velocita e precisione. Nei casi di sharing invece, della numerosita della popolazione si tiene conto, come si e detto, nella funzione di tness, ma con modalita da non trascurare quando si interpretano i risultati; occorre infatti non dimenticare che nel caso di sharing esplicito la funzione obiettivo e sottoposta a trasformazione per ottenerne la funzione di tness, cos che l'universo dei risultati puo non coincidere con quanto modellizzato; cio non avviene invece nel caso di sharing implicito, in cui la variazione dei parametri si traduce in una variazione della stessa pocedura di denizione della funzione obiettivo, e quindi in funzioni di volta in volta dierenti. Al contrario comunque di quanto avviene nel caso di ricerca di un estremo globale, al variare dei parametri citati non si hanno modiche delle sole prestazioni, ma sopratutto nel tipo di soluzioni trovate. Sull'argomento si tornera quando si commenteranno alcuni dei dati ottenuti, e si mostrera come i risultati non mostrino tanto una dipendenza dal numero di individui nella popolazione, quanto pittosto dai rapporti tra N , e pe, ove si e indicato con N la dimensione della popolazione, con una quantita campionata di individui che ha un analogo nel raggio della nicchia del caso esplicito, e con pe il numero di punti di estremo. 56 2.3 Il Criterio di Termine A tutt'oggi non sono state provate proprieta formali di convergenza verso la soluzione ottimale, ne tantomeno leggi, che possano guidare il ricercatore nella scelta del momento opportuno in cui interrompere l'evoluzione del sistema esaminato. Per questa ragione si rende necessaria la denizione di un criterio euristico di termine, che generalmente si fonda sul requisito di stabilita delle soluzioni nel corso delle generazioni o su di un massimo numero di iterazioni possibili dell'algoritmo oppure su di un raggiunto livello di uniformita all'interno della popolazione; occorre pero sottolineare che nessuno di essi, per quanto ben concepito, e in grado di garantire che la soluzione trovata sia realmente quella ottimale. Un criterio proposto da DeJong[DeJ75], denisce sia la convergenza di un gene, da intendersi come l'uguaglianza del 95% di tutti i geni codicanti la medesima caratteristica, che la convergenza della popolazione, ottenuta quando tutti i geni sono giunti a convergenza. Un ulteriore esempio lo possiamo trovare in Villani[Vil92] che introduce due valori ssati a priori n ed n ed interrompe il proprio algoritmo quando il tness dell'individuo migliore della generazione in esame non si discosta per piu di un n % dalla media dei valori massimi di tness rinvenuti nelle n ultime generazioni. L'ecacia dei criteri esposti e limitata al settore dell'ottimizzazione globale, poiche essi non sono adattabili quando si debbano risolvere problemi con caratteristiche di multimodalita, il cui obiettivo sia l'indagine in tutti i punti estremali. Se anche infatti si volesse pensare di applicarli in ciascun punto di estremo dello spazio di ricerca, giudicando la convergenza raggiunta quando fossero per tutti contemporaneamente soddisfatti, rimarrebbe irrisolto il grosso problema della conoscenza a priori del numero di massimi e dell'individua zione delle sottopopolazioni aerenti a ciascuno di essi su cui eseguire il test. Quando parte di queste conoscenze a priori vengono 1 2 1 2 57 usate gia nell'algoritmo, come nel caso della funzione di tness sharing esplicito, certamente non e ulteriormente dispendioso impiegarle anche nella costruzione del criterio di termine, ma sarebbe auspicabile arancarsi quanto piu possibile da esse. Un'approccio nuovo potrebbe essere fondato sull'analisi della stabilita delle clusterizzazioni eettuate nello spazio degli individui, simultaneamente all'evoluzione del sistema; tale metodo, che puo risentire della non robustezza associata alle metodiche di clustering, elimina pero la necessita di conoscenze a priori sul sistema, eventualmente orendo ulteriori informazioni sulla struttura delle nicchie. 58 Capitolo 3 Un Modello Semplicato del Riconoscimento e della Diversita Anticorpali Gli algoritmi genetici permettono di rappresentare il meccanismo di riconoscimento fra antigeni ed anticorpi attraverso la complementarita delle stringhe codicate; di operare una selezione proporzionale al tness del tipo di quella che si attua in seguito al riconoscimento, la selezione clonale; di rappresentare con detto tness il grado di complementarita antigene-anticorpo; di operare mutazioni con il rispettivo operatore e inne di creare una continua variabilita nella popolazione di anticorpi attraverso l'uso dell'operatore di crossover. Dunque essi si prestano molto bene per simulazioni nell'ambito del sistema immunitario, e, nella modellizzazione realizzata, sono stati usati nella loro formulazione base. La schematizzazione del meccanismo di riconoscimento del SI usata qui risulta molto semplicata rispetto alla complessita reale ed in particolare: non si e fatta alcuna distinzione tra fenotipo e genotipo, nel senso che le stringhe binarie di bit, con cui si sono rappresentati antigeni ed anticorpi, nel loro aspetto codicato sono individuabili come geni, ma agiscono come struttura sterica quando se 59 ne cerca la complementarita ai ni del riconoscimento. non e stata fatta distinzione fra tipi diversi di recettori posti su cellule B e T e anticorpi in soluzione non sono stati tenuti in conto i meccanismi immunitari che si innescano in seguito al riconoscimento dell'antigene. Due precisazioni sono necessarie: 1. le stringhe anticorpali non sono ottenute, come avviene realmente, scegliendo casualmente e componendo i frammenti costituenti il gene da un certo numero di librerie geniche, ma scegliendo, in modo casuale o meno, da un insieme contenente tutte le possibili stringhe ottenibili da tutte le possibili combinazioni dei frammenti inseriti nelle suddette librerie, il che comporta solo l'eliminazione di uno stadio intermedio nella costruzione della stringa, che in un caso e nell'altro deve essere costituita dalla medesima sequenza di bit. 2. l'operatore di crossover e usato come generatore di diversita all'interno della popolazione ma non ha un riscontro reale in questo ambito, essendo il crossing-over un meccanismo della sola riproduzione delle cellule germinali. Si e in precedenza accennato alla necessita di codicare con stringhe numeriche gli elementi su cui l'algoritmo genetico deve operare, e dunque della ricerca della codica e della lunghezza di stringa piu opportune per il problema in esame; la scelta di una codica binaria e di una lunghezza di stringa di 64 bit e stata fatta basandosi sulle seguenti cosiderazioni: e stato calcolato[Inm78] che il sistema immunitario potrebbe riconoscere almeno 10 tipi dierenti di antigene; 16 il numero di proteine proprie di un organismo umano, che il SI deve essere in grado di distinguere dalle proteine estranee, pena l'autodistruzione, sono 10 ; 5 60 il numero stimato di recettori dierenti sui linfociti B e 10 [BM88], 10 mentre quello dei recettori dei linfociti T e 10 [DB88]; 16 il numero stimato di recettori dierenti contemporaneamente presenti nell'organismo umano e 10 . 7 alcuni autori[PO79] dimostrano che se i 10 dierenti recettori 7 contemporaneamente presenti sono generati casualmente, allora il repertorio e completo, ovvero esiste per ciascun possibile antigene un anticorpo in grado di riconoscerlo e contrastarlo. In realta questo valore, qualsiasi esso sia, non puo considerarsi immutato all'interno dell'organismo, poiche il meccanismo della selezione clonale tende a far prevalere la presenza di quei recettori che si riscontrano utili per contrastare gli antigeni piu comuni nell'ambiente in cui l'organismo usualmente vive, ed essendo praticamente stabile il numero delle cellule che possono occupare contemporaneamente il sistema, questo va a detrimento delle cellule nuove e molto diverse che potrebbero essere prodotte. La codica scelta permette: una semplicita d'uso, sia per il calcolo della complementarita che per il riconoscimento delle stringhe; una buona riproducibilita della complessita del SI consentendo la rappresentazione di 2 ' 10 individui dierenti, ed inne di tenere conto della necessita di distinguere tra molecole del self e del nonself in associazione ad una procedura di tness che attribuisce valori piu elevati a quantita maggiori di bit riconosciuti , cos da ottimizzare il numero di stringhe diverse individuabili attraverso la stessa sequenza e di conseguenza diminuire la probabilita di errore. Lo scopo prepostosi e di comprendere se e sotto quali condizioni sia possibile utilizzare gli algoritmi genetici per arontare le problematiche inerenti al SI, che nel caso specico signica comprendere il meccanismo della generazione della diversita e della completezza del repertorio anticorpale. La possibilita della individuazione di un numero quasi innito di 64 19 61 possibili antigeni con un numero relativamente basso di possibili anticorpi, e garantita in virtu delle cosiddette multispecicita e crossreattivita, ove la prima indica la capacita di alcuni anticorpi di riconoscere, con diversa anita, piu antigeni molto diversi fra loro, e la seconda la capacita di rintracciare schemi comuni in dierenti antigeni, ovvero riconoscerne di non molto dissimili. I due casi sono stati separati ed arontati con procedure diverse, poiche anche lo scopo dell'algoritmo usato risultava dierente, dovendo, nel secondo caso, ottimizzare alla ricerca dell'anticorpo in grado di riconoscere una sequenza ovunque si presentasse all'interno di una stringa-antigene, e nel primo, mantenere una certa diversita all'interno della popolazione anticorpale, cosa ottenibile solo con meccanismi di sharing del tness. Le ricerche sono state eseguite facendo uso di un programma di dominio pubblico per l'uso degli algoritmi genetici, ampiamente utilizzato in questo settore ed anche in ricerche analoghe alla presente[FJSP93, SFP93b]: GENEsYs 1.0 di Thomas Back[Bac92], versione aggiornata di GENESYS 4.5 scritto da J. Grefenstette[Gre87b], su cui si sono innestate le routine per la determinazione del tness che di volta in volta si sono rese necessarie ad una personalizzazione d'uso; tali programmi sono stati scritti in linguaggio C cos come quelli impiegati per l'elaborazione dei dati ottenuti. 3.1 La Cross-Reattivita: Analisi e Risultati Per il riconoscimento di sequenze all'interno delle stringhe di antigeni si e fatto uso del seguente algoritmo per la determinazione del tness di ogni anticorpo: 1. si sceglie dalla popolazione ssata di antigeni, casualmente e con ripetizione, un campione di numerosita ; 2. per ciascun antigene k presente nel campione viene calcolata la 62 distanza di Hamming dh = djk , ovvero il numero di bit complementari tra l'antigene e il j-esimo anticorpo, con j = 1; : : : ; N ed N dimensione della popolazione; 3. viene stabilito il tness di ciascun anticorpo j come valore medio sulle distanze di Hamming calcolate per tutti gli antigeni del campione . L'esperienza e stata eseguita per due valori di , 5 e 30, e per ognuno di essi si sono valutate popolazioni di antigeni contenenti stringhe con lunghezza di schema 1=2; 1=4; 1=8, ovvero costituite per la meta, un quarto ed un ottavo della propria lunghezza di una sequenza denita di bit, s, che e stata scelta tutta di 1; ad esempio la seguente e la composizione di una popolazione di stringhe di lunghezza di schema 1=4, ove si e indicato con il simbolo il valore casualmente scelto fra 0 ed 1: 25% 11****** 25% **11**** 25% ****11** 25% ******11 La popolazione di anticorpi, inizialmente pseudocasuale, era composta di 200 elementi, quella di antigeni di 400, i valori delle probabilita di crossover e di mutazione sono stati posti a 0.6 e 0.0005 rispettivamente ed inne il numero di generazioni valutate e stato 500. Il criterio di termine adottato si e infatti basato sul numero di generazioni da considerare per consentire l'individuazione dell'elemento cercato e la sua perpetuazione, ed a tale scopo tale numero e stato scelto per essere sucientemente abbondante. Il valore migliore di tness che una stringa anticorpale potrebbe ottenere e ricavabile osservando che un anticorpo ottimale allo scopo dovrebbe essere costituito di s = (s=l) l bit esattamente complementari a quelli delle sequenze di schema di un qualsiasi antigene, e dunque con probabilita 1 di esserlo, e di l s = (1 s=l)l bit qualsiasi fra 0 ed 1 e dunque aventi probabilita 1/2 di essere complementari; ne segue che il valore ottimale di tness e: s s = l l s: l l [( )(1) + (1 )(1 2)] 63 = + 2 La stringa ottimale risultante in tutte le prove e stata quella composta di tutti 0, e, una volta che si sia giunti a convergenza, i valori medi di tness (ciascun valore riportato e mediato su 10 prove ripetute) rimangono molto stabili intorno al valore teorico, raggiunto asintoticamente, come si puo vedere dalle gure 3.2 e 3.1, ed inoltre cio e tanto piu vero quanto piu alto e , ovvero la possibilita per l'anticorpo di misurare adeguatamente il proprio tness in relazione all'intera popolazione di antigeni. Inoltre, sebbene i valori di tness ricevuti a generazioni dierenti da una stessa stringa potessero variare sensibilmente a causa della diversita di campionatura degli antigeni, il GA si e dimostrato piuttosto robusto nella ricerca, anche se la convergenza risulta piu rapida nel caso di antigeni con lunghezza di schema maggiore; cio e daltronde spiegabile con l'esistenza di una minore variabilita nei bit, e quindi fra i valori attribuibili di tness. La formazione di un individuo crossreattivo come quello trovato e facilmente giusticata se si pensa che un elemento specico per un solo o pochi antigeni sarebbe stato presto eliminato in virtu della particolare procedura di tness. Dal punto di vista immunitario possiamo dunque concludere che il SI puo esprimere un anticorpo in grado di individuare schemi comuni anche piccoli fra le molecole costituenti gli antigeni, ma tale operazione diviene sempre piu ardua con il diminuire delle dimensioni dello schema, cos che non e dicile immaginare l'esistenza di un probabile limite inferiore per esso. 3.2 La Specicita e la Multispecicita Con questa seconda serie di esperimenti si entra completamente nel merito della tematica del tness sharing, poiche essi ricercano proprio le condizioni del sistema che permettono l'esistenza contemporanea di piu massimi, da intendersi come la possibilita da parte del sistema immunitario di riconoscere antigeni diversi e di generare anticorpi loro antagonisti che li combattano e che persistano 64 Figura 3.1: Miglior tness medio di un anticorpo con popolazioni di antigeni con lunghezza di schema 1=2; 1=4; 1=8, per = 5 e = 30 65 Figura 3.2: Rapporto fra il miglior tness medio ed il tness teorico di un anticorpo con popolazioni di antigeni con lunghezza di schema 1=2; 1=4; 1=8, per = 5 e = 30; gli errori sperimentali sono stati omessi per una migliore comprensione, ma risultano sempre molto piu elevati nel caso = 5 66 nell'organismo. La trattazione matematica che segue giustica l'uso del tness sharing e deduce la formulazione analitica corrispondente alla procedura algoritmica che sara usata nel corso delle simulazioni, sottolineandone le caratteristiche di sharing ed evidenziando analogie con il caso di sharing esplicito al ne di utilizzarne alcuni risultati per l'interpretazione dei dati. Se una popolazione evolvesse sotto la sola spinta selettiva, conserverebbe nel tempo unicamente gli elementi rivelatisi a piu alto tness; infatti, indicando con n il numero di individui diversi in una popolazione di N individui, con Pit la percentuale di individui del tipo i alla generazione t ed inne con fi il tness assoluto dell'individuo di tipo i, varrebbe la condizione: N X i=1 Pit = 1 e le percentuali di individui uguali varierebbero nel tempo come: Pit fi : Pit+1 = X n Pjt fj j =1 Essendo dunque costante il numero totale di elementi nella popolazione, se ne deduce un aumento di Pit per gli individui che al tempo t avevano tness alto e di conseguenza un aumento del tness medio, denito come: f t = PNj Pjtfj . Con l'avanzare delle generazioni si arriverebbe ad uno stato stazionario stabile in cui tutti i costituenti la popolazione avrebbero il medesimo valore di tness, pari al massimo ottenibile, cos che,indicato con F tale valore, si avrebbe: +1 Pi = XPi F =) 1 = PJ F j 2S F Pj F X j 2S ove S e l'insieme dei soli individui i con tness fi = F ; cio dimostra che lo stato stazionario nale potrebbe essere una qualsiasi combinazione di percentuali di elementi della popolazione. In realta generalmente interviene il fenomeno noto come drift genetico, secondo cui, anche in condizioni di tness tutti uguali, uno squilibrio iniziale 67 nel numero di rappresentanti di ciascun individuo, generazione dopo generazione, fa s che da un certo momento in poi la popolazione sia interamente composta di individui uguali a quello che era inizialmente il piu numeroso, poiche questo si riproduce con sempre maggiore probabilita in forza della propria superiorita numerica. Ne segue che i semplici meccanismi di selezione non sarebbero sucienti ad ottenere la stabilita di un sistema con elementi dierenziati. Insoddisfacente sarebbe anche il risultato che si conseguirebbe se ci si limitasse ad introdurre una funzione di tness in cui questo fosse condiviso semplicemente fra i soli individui uguali: fi0 = Pfit , poiche i se ne ricaverebbe: t fi P t i Pi fi fi Pit Pit+1 X n n n X X Pjtfj Pjt Pfjt fj j j =1 j =1 j =1 0 = = = (3.1) 0 contenente i soli valori di tness assoluto e di conseguenza costante. Dunque in questo modo si manterrebbero inalterate nel tempo le percentuali di piu individui, ma non solo di quelli fra questi aventi le caratteristiche ottimali richieste. Lo scopo e stato raggiunto, seppur con tutte le implicazioni gia a suo tempo citate, utilizzando la funzione 2.1, a cui si continuera a fare riferimento e che fa intervenire non solo la reciproca inuenza delle stringhe uguali fra loro, ma anche di tutte quelle che vengono a trovarsi all'interno di una sfera di raggio denito. Il problema da arontare e dunque quello di capire se il meccanismo di simulazione che si mettera in atto sara o meno in grado di garantire una appropriata suddivisione in nicchie e la loro stabilita nel tempo. Denita una funzione M : Antigene Anticorpo ! < che quantichi la complementarita tra le stringhe, l'algoritmo da usare e riassumibile nei seguenti punti: 1. un solo antigene e selezionato in modo casuale e con ripetizione dalla popolazione; 68 2. un campione di dimensione e scelto casualmente senza ripetizione da una popolazione di N anticorpi; 3. ciascun anticorpo del campione viene confrontato con l'antigene e ne viene calcolato un punteggio in base al grado di complementarita; 4. si determina l'anticorpo in con il piu alto punteggio e nel caso in cui ve ne siano due o piu che lo abbiano uguale, se ne stabilisce casualmente uno come prescelto; 5. l'anticorpo con punteggio piu elevato aggiunge questo al proprio valore di tness; 6. si ripete il procedimento da 1) a 5) per un numero ssato di cicli. Il numero di cicli e preso sucientemente alto da poter presupporre con buona probabilita che tutti gli anticorpi nella popolazione possano confrontarsi con tutti gli antigeni ssati, ed in questo modo misurare la propria forza con valenza statistica. Il meccanismo di condivisione del tness e nascosto nelle interrelazioni implicate da "il migliore di. . . ", che, visto diversamente, costituisce il termine di accoppiamento, ma emerge manifestamente dalla trattazione analitica della procedura. Questa procede determinando la funzione di tness atteso attraverso il calcolo della probabilita che per un anticorpo si verichino tutti gli eventi di cui ai punti da 1) a 5). La metrica sia denita sulla base della distanza di Hamming dij fra un anticorpo i e l'antigene j , ovvero sul numero di bit dierenti fra i due: dij = 0 se la complementarita tra antigene ed anticorpo e completa; dij = l, con l = lunghezza della stringa se la complementarita e nulla; 1 dij (l 1) nei restanti casi di complementarita parziale. Si indichino inoltre con: sij il punteggio assegnato all'anticorpo i in seguito alla sua com- plementarita con l'antigene j ; 69 Nj (m) il numero di anticorpi nella popolazione con distanza m dall'antigene j ; j la probabilita di selezione per l'antigene j ; fi il tness atteso dell'anticorpo i. Allora, la probabilita che w anticorpi con distanza m dall'antigene j siano presenti in un campione di dimensione scelto senza ripetizione da una popolazione di N elementi, e data dal valore della funzione di distribuzione ipergeometrica: ( p w ; N; Nj m ( ; ( )) = ! Nj m w ) ! N Nj m w ; w ! N ( ) ; ; : : : ; : = 0 1 Infatti, N e il numero di possibili modi di prendere un campione di elementi da un insieme di N elementi, ed inoltre, se w elementi con distanza m dall'antigene j appartengono a , cos che in ve ne siano ( w) con distanza diversa da m, ed N Nj (m) e il numero di individui con distanza diversa da m, ne segue che: N Nwj (m) rappresenta il numero dei possibili modi di scegliere un campione, di dimensione w, di elementi con distanza diversa da m dall'antigene j , e Njwm il numero dei possibili modi di scegliere un campione, di dimensione w, di elementi con distanza pari ad m dall'antigene j . Alcuni casi particolari, che saranno utili in seguito, sono i seguenti: ( ) 1. = 1. In questo caso la probabilita che il campione contenga un anticorpo a distanza m e: Nj m ; p ; N; Nj m N e dunque la probabilita che non esista in nemmeno un elemento a distanza m e: N Nj m p ; N; Nj m p ; N; Nj m N (1; 1 (0; 1 ( )) = 1 ( (1; 1 70 ( )) = ( ) )) = ( ) 2. = N . In questo caso: p w N; N; Nj m ( ; ( )) = Nj m N Nj m w Nj m w N w N Nj m = N Nj m Nj m w Nj m w N w w Nj m ( !( ( ) ( )! ( ( ( ))! )!( ( ) ( )! !( ( 1 se 0 altrimenti ( = )! ) ( )! ( )!( N w ))! ( ))! w Nj m = ( ) Nel caso in cui si richieda una perfetta complementarita tra antigene ed anticorpo, ovvero valga la condizione s(dij ) 6= 0 () dij = 0, avendo posto s(dij ) = sp, le condizioni, indipendenti, che devono essere soddisfatte perche l'anticorpo possa ricevere un incremento di tness sono: l'elemento j degli antigeni e selezionato con probabilita j ; l'elemento i degli anticorpi deve appartenere al campione di dimensione ; se esistono w anticorpi che perfettamente si adattano all'antigene, l'anticorpo i deve essere il prescelto e cio si verica con probabilita w1 . Si ha dunque che la probabilita che, nella sottopopolazione di w elementi, ne esista uno degli Nj (0) con distanza 0 da j , e: ! p w; Nj ; (1; (0) 1) 1 = = = Nj w Nj w ! (0) 1 1 1 ! (0) ( w (0) 1)! 1)!( (0) 1 w ; N j (0) 71 Nj Nj Nj w Nj ( !( (0)! (0) w w )! + 1)! + )! mentre p(w; ; N; Nj (0)) rappresenta la probabilita che il campione contenga w elementi, tra gli Nj (0) a distanza zero da j ; si puo quindi concludere che la probabilita che un elemento della popolazione soddis tutte e tre le condizioni imposte, e quindi riceva un incremento di tness, e: j X w=1 p w ; N; Nj ( ; (0)) w p w; Nj ; 1 (1; (0) 1) = = = j X p w ; N; Nj ; (0)) potendo w variare da 1 a . Ne consegue per il tness atteso, dopo un ciclo: j X fi N p w ; N; Nj sp: j w=1 Dopo C cicli tale valore sarebbe: Fi = Cfi , ma poiche tale costante compare per ogni i, la si trascura, identicando il tness su di piu cicli con quello su di un ciclo solo. Nel caso piu generale in cui sia richiesta la complementarita parziale fra le stringhe, vale: dij = m, con m 2 [0; l]; l'antigene e scelto, come in precedenza, casualmente, con ripetizione e con probabilita j e le seguenti sono le condizioni perche l'anticorpo riceva un aumento di tness: = ( (0) ; (0)) 1. non vi siano anticorpi nel campione a distanza minore di m dall'antigene; 2. se w anticorpi nel campione sono tutti a distanza m dall'antigene, l'anticorpo i deve appartenere all'insieme dei w, e deve essere considerato il prescelto; quest'ultimo fatto avviene con probabilita w1 . Queste condizioni, contrariamente al caso precedente, non sono piu indipendenti, e quindi le probabilita da calcolare saranno probabilita condizionali: P (E T E ) = P (E =E )P (E ), avendo indicato con E ed 1 2 2 1 72 1 1 w w Nj (0) w=1 j X p(w; ; N; N (0)) j Nj (0) w=1 j (1 p(0; ; N; N (0)); j Nj (0) ( 1 E2 gli eventi di cui ai punti, rispettivamente, 1) e 2). Dunque: P E1 ( ) = p ; N; Vj m ; (0; ( )) ove Vj (m) = Pmk Nj (k) indica il numero di anticorpi con distanza 1 =0 di Hamming K < m dall'antigene j , con V (0) = 0, mentre per il calcolo di P (E ) occorrono: p(w; ; N Vj (m); Nj (m)), la probabilita che w degli Nj (m) anticorpi a distanza m dall'antigene j appartengano al campione di dimensione e nessuno dei Vj (m) compaia nel campione, e p(1; w; Nj (m); 1) = Njw(m) , la probabilita che l'anticorpo i sia uno dei w del campione, anche la probabilita che almeno un anticorpo a distanza m dall'antigene j sia nel campione, quando non ve ne sono a distanza minore, sia: 2 P E2=E1 ( X ) = = = p w ; N Vj m ; Nj m p w; Nj m ; w w=1 X p w ; N Vj m ; Nj m N wm w j w=1 1 ( ; ( ) ( )) (1; ( ; ( ) ( )) ( ) 1) 1 1 ( ) p ; N Vj m ; Nj m : Nj m (0; ( ( ) ( ) ) Si puo inne ricavare l'espressione del tness per l'i-esimo anticorpo: fi l X = = X s(dij )j P (E2=E1)P (E1) m=0 j 2Si (m) l X s(d ) X ij j [p(0; ; N; Vj (m))(1 N m=0 j 2Si (m) j (m) p ; N Vj m ; Nj m ; (0; ( ) ove la somma su m tiene conto di tutte le possibili distanze dall'anticorpo i, la somma su j considera tutti gli antigeni j a distanza m da i, ed inne Si(m) e l'insieme di tutti gli antigeni j a distanza m dall'anticorpo i. In entrambe le espressioni trovate per il tness si intravede una struttura da tness condiviso, data dalla presenza del termine Nj (m) al denominatore, che conferma che la procedura stabilita permette una suddivisione in nicchie come auspicato, realizzando quella che e 73 ( ))] stata denita una metodica di tness condiviso implicito. Un confronto con le proprieta del tness sharing esplicito utilizzato da Deb e Goldberg, e precedentemente citato[DG89], puo essere di aiuto per individuare quelle proprie del caso implicito specico. Ricordando che il parametro sh rappresenta il valore critico di di;j al di la del quale non vi e piu condivisione delle risorse, si riporta qui di seguito l'analisi dei risultati, ottenibili utilizzando gli algoritmi genetici unitamente a detta funzione di tness, in funzione di questo parametro. Deb[Deb89] dimostra che, nell'ipotesi in cui l'algoritmo sia in grado di scoprire e conservare q picchi equidistanti di una funzione, e possibile scegliere sh in modo che esistano q ipersfere di raggio sh, contenenti ognuna uno ed uno solo dei q picchi, che coprano tutto lo spazio di ricerca; ne segue che la distanza di cut-o coincide con quella determinante l'intorno del picco fra i cui elementi si condivide il tness. Supponendo di partire, a t = 0, da una popolazione composta dallo stesso numero d'individui per ciascun punto dello spazio di ricerca, la prima valutazione della equazione 3.1, ove fi0 sia desunto dall'equazione 2.1, fornisce Pi = fki , con k =costante, data l'uniforme distribuzione di punti all'interno delle ipersfere, cos che gli individui corrispondenti ai picchi aumentano di numero. E dunque solo alla valutazione successiva che si avverte l'eetto della condivisione del tness, poiche a quel momento il numero degli individui a tness piu elevato e aumentato. Viceversa, quelli che vengono a trovarsi all'interno di una o piu sfere di raggio sh subiscono drastiche diminuzioni di tness in seguito alla presenza dei molti elementi di estremo contenuti nel proprio intorno. L'eetto combinato dei due provoca una forte aggregazione di punti di picco e scarsita di punti nelle regioni circostanti, e dunque la realizzazione dello sharing sui q picchi come atteso; la situazione sara stazionaria quando tutti i valori di tness saranno uguali e quindi la selezione proporzionale non modichera oltre la distribuzione degli individui. Qualora sh non fosse stato scelto di dimensione opportuna per contenere un solo valore di picco ma, ad esempio, due, gli individui corrispondenti si sarebbero inuenzati vicendevolmente, cos che in realta il GA avrebbe converso ad uno solo dei due, comportandosi 1 74 localmente come algoritmo di ottimizzazione. Un caso limite si ha quando il raggio dell'ipersfera abbraccia l'intero spazio di ricerca, per cui il tness assoluto e condiviso coincidono a meno di una costante uguale per tutti gli individui; ne segue che, in mancanza di sharing, il GA ottimizza sull'intero spazio trovando un solo valore ottimale. Quando viceversa sh e troppo piccolo, individui prossimi a quelli di picco possono non esserne sucientemente inuenzati, cos da rimanere nella popolazione nale, disturbando la convergenza. Il caso limite si ha per sh = 0, quando avviene che: fi0 = fsh;i = Pfii , che, sostituito nell'equazione 3.1, ci riporta al caso in cui in un solo passaggio le proporzioni di individui rimangono sse al valore del rapporto tra il tness assoluto e la somma di tutti i tness. Per poter cogliere le analogie con il tness sharing implicito studiato e necessario analizzare il comportamento del termine ipergeometrico: p ; N; Vj m p ; N Vj m ; Nj m [ (0; ( ))(1 (0; ( ) ( )))] che compare nell'espressione per il tness dell'anticorpo i. Il suo valore per = 1 e: p ! Vj m ( 0 ) (0; 1 ; N; Vj m ( ! N Vj m ( N ! Nj m ) ( 1 p ))(1 (0; 1 ! ( N Vj m ( ) N Vj m ( 1 ) ( ))) Nj m ) 1 0 (1 ; N Vj m ; Nj m ( = ! ) ! ) ) = 1 N Vj m N ( ) (1 N Vj m Nj m N Vj m ( ) ( ( ) ) ) = Nj m N ( ) che sostituito nell'espressione di tness atteso da: l X X s dij j fi : m=0 j 2Si (m) N Non essendoci piu alcuna dipendenza da Nj (m), e quindi suddivisione del tness, il comportamento del GA, nel cui ambito e usato, deve essere di ottimizzazione, con un solo valore di picco, esattamente come avveniva nella trattazione di Deb per sh pari all'intero ( = 75 ) spazio di ricerca. Nel caso invece di = N ed m = 0, poiche si era posto P (w; N; N; Nj (m)) = 0 se w 6= Nj (m), si ottiene: j sp ; Nj che indica che il tness e diviso fra tutti gli individui uguali nella popolazione, e si riporta alla medesima situazione, che nel tness sharing di Deb si aveva per sh = 0, di valori proporzionali di individui ssati nel tempo. Piu in generale, le curve relative al termine ipergeometrico: fi R = (0) p ; N; Vj m = [ (0; ( ))(1 p ; N Vj m ; (0; ( ) 1))] dedotto per un anticorpo, a distanza m dall'antigene selezionato e che sia in competizione per le risorse di tness con Vj (m) anticorpi piu prossimi ad esso, tracciate per diversi valori di , mostrano una forte somiglianza con la famiglia di curve della g. 2.1 per < 1, come si puo vedere dalla gura 3.3 (ove i valori di R sono scalati tra 0 ed 1), cos che si puo pensare ad R come all'analogo della funzione di sharing esplicito, ove giuochi il ruolo di sh , la distanza di cut-o, al di la della quale non vi e piu sharing. Vi e pero una dierenza sostanziale da sottolineare e cioe che, mentre sh e un valore stabilito a priori come raggio della ipersfera e dij = sh risulta di conseguenza la distanza di cut-o, e legato a Vj (m), che indica il numero di individui all'interno dell'ipersfera di raggio m 1 intorno ad un antigene e si modica dinamicamente: all'aumentare degli anticorpi prossimi all'antigene diminuisce la probabilita per gli anticorpi piu distanti di vincere la competizione, ovvero i piu ecaci impediscono ai meno ecaci di condividere la risorse. Dunque i conni dello sharing sono funzione della proporzione di anticorpi aggregati intorno all'antigene. In questo caso la distanza di cut-o dipende anche dal numero totale di individui nella popolazione, N , 76 1 σ σ σ σ σ σ σ σ 0.8 0.6 = 2 = 3 = 5 = 6 = 7 = 10 = 15 = 30 R 0.4 0.2 0 0 10 20 30 40 50 60 70 80 90 100 Vj (m) Figura 3.3: La funzione di sharing implicito per N = 100 cosa che rendera i risultati che si otterranno particolarmente interessanti: ! ! N Vj m ! p ; N Vj m ; N Vj m N Vj m N Vj m N Vj m 1 1 (0; ( ) 1) = 1 = 1 = ( mentre ( p ; N; Vj m (0; ! Vj m ( )) = 0 ) ) sempre; N Vj m ! N ( 77 ( ) ) ( ( 0 ) 0 = 6 ( ! ) ) 1 = = ( N Vj m N N Vj m N ( (! ( ))!( ( )! ) )! N Vj m N Vj m ( ( ! N Vj m N Vj m ) + 1)( ( ) + 1)( ( ( ::: N :::N ) + 2) ) + 2) ( che si annulla per N Vj (m) + i = 0, con i = 1; : : : ; Vj (m), ovvero per: Vj m N i () Vj m > N ; ( ) = + ( ) da cui segue: R = 0 () [p(0; ; N; Vj (m))(1 p(0; ; N Vj (m); 1))] = 0 () Vj (m) > N : In realta R diventa molto prossimo a 0 anche per valori di Vj (m) < N , in un intervallo variabile a seconda dei valori scelti per N e . Questo risultato e rilevante per poter denire il numero, e di conseguenza il tipo, di stringhe che concorrono a formare un picco nello spazio di ricerca, costituendo per questo una guida nell'interpretazione dei risultati. Per tutte le esperienze eseguite, salvo che sia diversamente indicato, si e fatto uso dei seguenti valori dei parametri: la popolazione di anticorpi era costituita di 100 elementi, i rapporti di mutazione e crossover erano rispettivamente 0.001 e 0.6 ed inne valeva 30. Dalle curve mostrate di gura 3.3 possiamo desumere che l'intorno del valore di picco, con i valori scelti di N e , puo essere preso molto piu piccolo di N dal momento che i valori di R sono molto prossimi a 0 gia per Vj (m) 20. L'algoritmo aveva termine quando si erano raggiunte le 500 generazioni, ed il numero di cicli eseguiti per ogni generazione era pari a tre volte la dimensione della popolazione di anticorpi. 78 ) 3.2.1 Procedura di Analisi dei Dati Il programma utilizzato, GENEsYs, ore una ampia varieta di parametri ed operatori con i quali si puo agire per adattare l'algoritmo alle proprie esigenze, e permette di usufruire di una vasta gamma di strumenti con cui monitorare lo stato della popolazione e dei singoli individui, ad un qualsivoglia istante temporale nel corso dell'evoluzione. Una delle possibilita oerte, e la memorizzazione dell'intera popolazione di stringhe ad intervalli temporali scelti, che permette di osservare la distribuzione degli individui per poterne conoscere lo stato di evoluzione. Tale opportunita e fondamentale quando, per eseguire lo studio dei risultati, si debba vericare la composizione della popolazione. Sottolineamo che l'analisi dei dati nel caso di funzioni multimodali non note a priori, e generalmente piuttosto delicata, in quanto e estremamente complesso risalire alla reale forma funzionale sulla sola base della distribuzione dei dati, senza che se ne conoscano le informazioni strutturali. Di queste tematiche si occupa quella branca della statistica nota con il nome di cluster analisys. Per poter estrarre le informazioni cercate dagli esperimenti fatti, si e reso necessario individuare una opportuna procedura di analisi dati che consentisse di rintracciare nelle popolazioni memorizzate quegli individui che rispondessero alle caratteristiche richieste. Tale procedura si e articolata nei seguenti punti: 1. memorizzazione di tutte le stringhe comparse nel corso dell'evoluzione ad intervalli generazionali ssati, e delle relative frequenze, mediate sul numero di prove ripetute dell'esperimento; 2. identicazione delle stringhe signicative all'interno della popolazione. Si esegue cercando fra tutte le stringhe diverse quelle che abbiano almeno una frequenza media, in una delle generazioni osservate, maggiore di un soglia, dinamicamente denita 79 sulla base della distribuzione delle occorrenze di tutti gli individui durante l'intero arco evolutivo. I dettagli di tale procedura, estremamente complessa, non sono riportati per ragioni di spazio. 3. identicate le stringhe piu signicative e prese come stringhe di riferimento, si traccia una rappresentazione graca tridimensionale nella quale vengono riportate, per ogni generazione, le frequenze medie cumulative delle stringhe che si trovano alla medesima distanza di Hamming da quella di riferimento; 4. usando come guida i risultati trovati teoricamente sul raggio delle nicchie ecologiche ed osservando la struttura morfologica dei picchi quale emerge dai graci tridimensionali, si sceglie una opportuna distanza in bit in base alla quale decidere se una stringa appartiene all'intorno di quella di riferimento; 5. le frequenze delle stringhe appartenenti ad un stesso intorno vengono cumulate, mostrando una maggiore velocita di convergenza ed una maggiore risoluzione dei picchi. La procedura grazie ai propri meccanismi di adattabilita e di controllo incrociato sui dati, si e rivelata robusta, permettendo di scartare eventuali false convergenze, ed ha consentito, attraverso una ecace visualizzazione, lo studio delle proprieta del sistema evolutivo in esame. Nei paragra successivi verranno mostrati i risultati relativi a gruppi di esperimenti, ciascuno eettuato per indagare un diverso aspetto del sistema immunitario. 3.2.2 Stabilita della Diversita Anticorpale La popolazione di antigeni e costituita per meta di elementi uguali ad una stringa composta di tutti 1, e per meta di elementi uguali ad una stringa costituita di tutti 0, con uguale probabilita di essere selezionati per il confronto; la popolazione iniziale di anticorpi 80 conta anch'essa medesime proporzioni delle stesse stringhe in modo da contenere gia inizialmente elementi complementari a quelli antigenici. Lo scopo e quello di vericare che si possano mantenere costantemente presenti, e numerosi, all'interno della popolazione di anticorpi, due di essi che siano complementari agli antigeni dei due tipi. Come si puo vedere dalla gura 3.4(alto), benche la quantita assoluta di elementi rappresentativi di ciascuna stringa anticorpale diminuisca, come e normale che accada per eetto del crossover, il loro valore relativo rimane invariato e stabile gia a partire da una decina di generazioni. Il graco tridimensionale riferito ad una delle due di queste stringhe (g. 3.4(basso)) mostra inoltre che esse sono le uniche presenti di una certa rilevanza, mentre le rimanenti sono fortemente disperse fra elementi di frequenza quasi nulla e di durata breve. L'esperienza eseguita con tre stringhe diverse di antigeni, una composta di tutti 1, una di tutti 0 ed una di 0 ed 1 alternati, e con percentuali uguali dei tre anticorpi complementari, ha riportato risultati analoghi, come si puo desumere dalle gg. 3.5(alto) e 3.5(basso). Si vedra meglio in seguito che non vi e alcuna dicolta a perpetuare un numero piu elevato di stringhe nella popolazione, purche siano vericate alcune condizioni. La stessa proporzionalita fra antigeni viene ritrovata e costantemente mantenuta fra gli anticorpi anche quando le proporzioni iniziali di quest'ultimi sono completamente dierenti, sottolineando la grande robustezza dell'algoritmo nei confronti di un qualsiasi disturbo di qualsiasi entita; le gg. 3.6(alto) e 3.6(basso) mostrano il comportamento dell'algoritmo nel caso delle due stringhe e le gg. 3.7(alto), 3.7(basso) e 3.8 quello nel caso delle tre stringhe. Le ultime due esperienze sono state ripetute con la sola variante di = 5, trovando per risultato un solo elemento emergente, costituente una stringa in grado di coprire tutti gli antigeni nella popolazione, seppur con diverse anita. La gura 3.9(alto) mostra come la stringa in esame recuperi velocemente dopo 81 Figura 3.4: In alto: Frequenza media delle stringhe di anticorpi che forniscono gia inizialmente la risposta corretta al problema posto. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 11 : : : 11 82 Figura 3.5: In alto: Frequenza media delle stringhe di anticorpi che forniscono gia inizialmente la risposta corretta al problema posto; ogni valore riportato corrisponde ad una media su 30 prove ripetute. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 00 : : : 00 83 Figura 3.6: In alto: Frequenza media delle stringhe di anticorpi che forniscono gia inizialmente la risposta corretta al problema posto, ma con proporzioni iniziali relative dierenti da quelle tra antigeni; ogni valore riportato corrisponde ad una media su 30 prove ripetute. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 00 : : : 00 84 Figura 3.7: In alto: Frequenza media delle stringhe di anticorpi che forniscono gia inizialmente la risposta corretta al problema posto, ma con proporzioni iniziali relative dierenti da quelle tra antigeni; ogni valore riportato corrisponde ad una media su 30 prove ripetute. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 00 : : : 00 85 Figura 3.8: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 101 : : : 101 una caduta iniziale dovuta all'intervento del crossover, e la gura 3.9(basso) come la sua supremazia sia schiacciante rispetto agli altri anticorpi della popolazione dalla vita emera. In gura 3.10 la stringa dell'anticorpo 11. . . 11 non compare, perche di tale modesta entita da non essere evidenziata dalla procedura di analisi; lo studio tridimensionale porta ad un andamento estremamente simile a quello del caso precedente, condizioni iniziali a parte. 3.2.3 Scoperta della Diversita Proporzioni Uguali di Antigeni La popolazione iniziale di antigeni e la medesima delle esperienze del precedente paragrafo, ma la popolazione iniziale di anticorpi e formata da stringhe costruite scegliendo i singoli bit in modo pseudocasuale. Lo scopo e quello di capire se sia possibile, non 86 Figura 3.9: In alto: Frequenza media delle stringhe di anticorpi che forniscono gia inizialmente la risposta corretta al problema posto, con proporzioni iniziali relative uguali a quelle degli antigeni e per = 5; ogni valore riportato corrisponde ad una media su 30 prove ripetute. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 101 : : : 101; =87 5 Figura 3.10: Frequenza media delle stringhe di anticorpi che forniscono gia inizialmente la risposta corretta al problema posto, ma con proporzioni iniziali relative dierenti da quelle tra antigeni e = 5; ogni valore riportato corrisponde ad una media su 30 prove ripetute 88 piu solo perpetuare la presenza numerosa di stringhe complementari a quelle antigeniche, ma rinvenirle e quindi conservarle nella popolazione. Essendo il compito sicuramente un po piu arduo dei precedenti, la lettura dei dati e un po piu complessa. Partendo dall'esame dei risultati relativi al caso di due stringhe dierenti di antigeni, si puo osservare dalla gura 3.11(alto) che le stringhe di anticorpo individuate dalla procedura di analisi dei dati sono solo quelle complementari degli antigeni; lo studio piu completo sulle frequenze cumulative degli individui con uguale distanza di Hamming da ciascuna di queste stringhe (g. 3.11(basso)), tenendo conto del numero di questi che possono essere ritenuti parte di un picco sulla base delle considerazioni svolte nel corso della trattazione analitica dell'algoritmo, consente di tracciare gli andamenti di convergenza di gura 3.12, basati su stringhe che sono uguali a quelle di picco a meno di tre bit, o se si vuole, per il 95% dei bit. Da notare che il valore di picco nale e intorno alle 30 stringhe medie, come si trovava nelle esperienze del paragrafo precedente. La situazione risulta apparentemente piu confusa per il caso di tre stringhe di antigeni, poiche i tre picchi rinvenuti sono s ben delineati ma meno netti del caso precedente (g. 3.13(basso)); la scelta dei tre bit di dierenza, rispetto alle stringhe di picco complementari degli antigeni, per giudicare l'appartenenza o meno al picco, si e basata, oltre che sui criteri citati, sulla constatazione di una variazione scarsissima delle frequenze medie all'ulteriore aumento di un bit (g. 3.13(alto)); e comunque da sottolineare la provata capacita dell'algoritmo di rinvenire tutti gli elementi corretti, sebbene si possa spostare in avanti o indietro il momento della raggiunta stabilita. Ripetendo l'esperienza, sempre trattando la stessa popolazione di tre antigeni e partendo da una popolazione casuale di anticorpi, ma avendo preso = 5, si ritrova nuovamente una sola stringa di picco nella popolazione di anticorpi (g. 3.14(alto) e 3.14(basso)), quella 89 che ha un perfetta complementarita con uno degli antigeni ed una complementarita intermedia con entrambe le rimanenti stringhe, confermando nuovamente la stretta dipendenza tra numero di picchi rinvenibili ed il parametro , se si mantiene costante il numero totale di individui nalla popolazione di anticorpi. Si noti che la frequenza media della stringa e pari a circa il 70% della popolazione, accentrando di conseguenza troppe risorse perche un altro individuo possa, anche se con una presenza modesta, sopravvivere. Proporzioni Dierenti di Antigeni In questo esperimento si cerchera di idagare la possibilita di individuare e conservare anticorpi che siano complementari ad antigeni presenti in proporzioni dierenti; per la precisione la popolazione antigenica e costituita per il 50% di stringhe con tutti i bit posti a 0, per il 30% di stringhe con tutti i bit posti a 1 ed inne, per il rimanente 20% di stringhe con i bit posti alternativamente a 0 ed 1; la popolazione anticorpale e generata inizialmente in modo pseudocasuale. Solo due sono state le stringhe rintracciate, quella complementare alla stringa 11 : : : 11 e quella complementare alla stringa 00 : : : 00, i cui andamenti della frequenza media nel corso delle generazioni sono riportati in gura 3.15(alto), tenendo conto, nel calcolo, delle stringhe che sono uguali ad esse a meno di tre bit. L'esame degli andamenti tridimensionali, (g. 3.15(basso)), mostra che tra le due stringhe trovate potrebbe esserci una terza stringa signicativa, rimasta di entita troppo modesta per essere evidenziata, ma che potrebbe emergere con opportune modiche di alcuni parametri. A questo proposito sono state fatte delle prove, a carattere piu generale, che hanno dimostrato un miglioramento della convergenza soprattutto in funzione del numero di punti di crossover, trovando un valore ottimale per esse di 2. Modicando in questo senso il valore di detto parametro si e eettivamente riusciti a mettere in luce anche 90 Figura 3.11: In alto: Frequenze Medie degli Anticorpi complementari degli antigeni; la popolazione iniziale di anticorpi era casuale; ogni valore riportato corrisponde ad una media su 30 prove ripetute. In basso: Frequenze Medie cumulative degli individui con uguale distanza di Hamming dalla stringa 11 : : : 11 91 Figura 3.12: Frequenze Medie degli Anticorpi complementari degli antigeni, cumulate con quelle di individui ad essi uguali entro 3 bit; la popolazione iniziale di anticorpi era casuale; ogni valore riportato corrisponde ad una media su 30 prove ripetute 92 Figura 3.13: In alto: Frequenze Medie degli Anticorpi complementari degli antigeni, cumulate con quelle di individui ad essi uguali entro 3 bit; la popolazione iniziale di anticorpi era casuale; ogni valore riportato corrisponde ad una media su 30 prove ripetute. In basso: Frequenze Medie cumulative degli individui con uguale distanza di Hamming dalla stringa 00 : : : 00 93 Figura 3.14: In alto: Frequenze Medie dell'unico Anticorpo trovato, cumulate con quelle di individui ad esso uguali entro 3 bit; la popolazione iniziale di anticorpi era casuale; ogni valore riportato corrisponde ad una media su 30 prove ripetute. In basso: Frequenze Medie cumulative degli individui con uguale distanza di Hamming dalla stringa 010 : : : 010 94 la stringa 010 : : : 010 (g. 3.16(alto) e g. 3.16(basso)), ottenendo contemporaneamente un ulteriore miglioramento della convergenza per le precedenti due stringhe. Inne e da sottolineare che la gerarchia delle quantita dei rappresentanti di ciascun individuo rispecchia quella delle complementari stringhe di antigeni. Non si puo dunque che concludere che dierenze in quantita degli antigeni si rispecchiano nelle quantita relative degli anticorpi complementari, sempre che ci siano le condizioni opportune perche per ciascun elemento antigenico ve ne sia uno anticorpale a lui perfettamente complementare; come vedremo in seguito tali condizioni risultano dettate dai valori di ed N . 3.2.4 Dimensione Critica della Popolazione di Anticorpi Si e visto nei precedenti paragra che non sempre nella popolazione di anticorpi evoluta si ritrovano tante stringhe quante sono quelle antigeniche di riferimento, ma che, ad esempio, ve ne possono essere in numero minore e con qualita assai diverse da quelle che realizzano la perfetta complementarita antigene-anticorpo; e necessario dunque capire da quali parametri e con quali modalita dipenda tale variazione nel numero dei componenti la popolazione nale di anticorpi. Ricordando i risultati ottenuti durante la trattazione analitica delle proprieta dei picchi relative all'algoritmo usato, e dunque sospettando una forte dipendenza dai parametri N e , si sono eseguiti un primo gruppo di esperimenti in cui si e variata la quantita di anticorpi nella popolazione, mantenendo invariato il rapporto N . La dimensione della popolazione e stata di 50, 100 e 200 individui ed il rapporto suddetto e stato di 0:15; gli antigeni sono stati generati in modo pseudocasuale. Poiche lo scopo e quello di capire sotto quali condizioni siano individuati contemporaneamente tutti gli anticorpi complementari degli antigeni, si e testata la popolazione al termine di ciascuna prova eseguita, per vericare che detta condizione si fosse o meno vericata. In caso di risposta positiva la prova veniva 95 Figura 3.15: In alto: Frequenza media delle stringhe di anticorpi generate casualmente per tre antigeni con dierenti proporzioni nella popolazione iniziale; un punto di crossover. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 11 : : : 11 96 Figura 3.16: In alto: Frequenza media delle stringhe di anticorpi generate casualmente per tre antigeni con dierenti proporzioni nella popolazione iniziale; due punti di crossover. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 11 : : : 11 97 conteggiata fra quelle valide; una volta raggiuntene 50 per ciascun insieme dei parametri, si calcolava su queste il numero medio di anticorpi, presenti nella popolazione, complementari di un antigene. Se viceversa si raggiungevano 50 prove non valide si considerava che le stringhe non fossero state tutte individuate, e si poneva a zero il numero di anticorpi presenti per antigene. I risultati trovati sono riassunti in tabella 3.1, in cui e riportata anche la percentuale di prove in cui non erano presenti tutti gli anticorpi cercati. Si noti inoltre che vi e un numero crescente di individui che non entra a fare parte dei picchi, e che tale valore aumenta dal 30% al 50% con il numero dei picchi da riconoscere. Tabella 3.1: Numero minimo di anticorpi necessari per l'esistenza di anticorpo specico Anticorpi nella Antigeni Frequenza Deviazione Percentuale di popolazione dierenti media standard fallimenti 50 50 50 2 3 4 17.5 0.0 0.0 2.4 0.0 0.0 19 99 100 100 100 100 100 2 3 4 5 35.0 19.5 0.0 0.0 3.2 2.3 0.0 0.0 0 12 56 100 200 200 200 200 200 200 200 200 2 3 4 5 6 7 8 9 69.4 40.4 27.1 20.7 16.4 0.0 0.0 0.0 5.2 3.2 2.0 1.7 1.5 0.0 0.0 0.0 0 0 0 8 23 54 80 100 Dal punto di vista immunitario la dipendenza da N e fa pensare che agli antigeni che penetrano nell'organismo vengano contrapposti 98 anticorpi specici solo se in esso vi e un numero di anticorpi sucientemente alto da poter permettere al sistema di destinarne un numero minimo a ciascuno; tale numero si e trovato essere circa 18. In mancanza di questa quantita minima il sistema risponde alle sollecitazioni sviluppando altre strategie che devono essere ulteriormente indagate. E bene precisare n d'ora pero, che queste considerazioni non risultano piu valide quando il valore di diviene troppo piccolo, come si mostrera nei paragra successivi. 3.2.5 Potere Risolutivo del Modello Ci si puo chiedere se i risultati ottenuti non dipendessero dal tipo di stringhe scelte, considerando che esse erano massimamente dissimili fra loro; per rispondere a questo quesito si e cercato di capire se e quanto i risultati fossero inuenzati dalle reciproche somiglianze, o equivalentemente dalle reciproche distanze di Hamming. Si e cos formata una coppia di antigeni dierenti, per ciascun esperimento eseguito, costituita sempre di una stringa composta di tutti bit a valore 0 e di una avente, in un caso, tutti i valori dei bit posti a 0 tranne uno, in un altro tutti i valori dei bit posti a 0 tranne 4, e cos via no ad ottenere 64 bit posti ad 1; il numero di individui per ciascun tipo di stringa era il medesimo. I valori ssati di N e sono stati rispettivamente 100 e 15 ed inoltre la popolazione di anticorpi e stata generata in modo pseudocasuale, in modo da poter testare la robustezza dell'azione sia nella individuazione delle stringhe che nella stabilita; le prove ripetute sono state 5. Avendo mantenuto la dimensione della popolazione di anticorpi a 100 e = 15, ci si aspetta che, in sintonia con quanto trovato nell'esperimento del capitolo precedente, vengano generati anticorpi complementari per entrambi gli antigeni. I risultati riportati in g. 3.17 mostrano che la risoluzione e asso- 99 Figura 3.17: Potere risolutivo per due stringhe di antigeni dierenti. 100 lutamente indipendente dal grado di dierenza fra le stringhe antigeniche, poiche anche stringhe che dieriscono tra di loro di un solo bit vengono perfettamente separate e riconosciute. E da notare inoltre la diminuzione di frequenza media con l'aumentare della distanza di Hamming fra le stringhe, con un conseguente incremento nel numero di stringhe dierenti che non sono identicabili con nessuna stringa di anticorpo; dunque all'aumentare della diversicazione fra gli individui aumenta la dispersione, per eetto del crossover, fra le tante possibili combinazioni di essi. I medesimi valori di N e sono utilizzabili, sempre in virtu dei risultati del precedente paragrafo, anche per eseguire il medesimo esperimento di cui sopra con tre stringhe antigeniche dierenti, potendosi aspettare la presenza di tre anticorpi specici per esse nella popolazione anticorpale. Le stringhe di antigene sono state scelte come costituite una di bit tutti a valore 0, una di bit tutti a valore 1 ed una composta di una sequenza di bit con valore 0 seguita da una sequenza di bit con valori 1 che nei vari esperimenti sono state rispettivamente 16 e 48, 12 e 52, 8 e 56, 4 e 60, ed inne 1 e 63; tutte le stringhe erano in ugual numero nella popolazione e le prove ripetute per ciascun esperimento sono state 5. Anche in questo caso la prima serie di esperimenti ha mostrato una notevole rumorosita che disturbava la convergenza, g. 3.18, per cui si e nuovamente ricorso all'aumento del numero dei punti di crossover, portato al valore ottimale 2 e si e anche aumentato il numero delle prove ripetute sino a venti. Si riportano solo alcuni dei graci relativi a questa nuova seria di esperimenti. Le gure 3.19(alto), 3.20(alto), e 3.21(alto) relative agli esperimenti in cui la terza stringa e quella complementare rispettivamente a quella contenente 16, 8 ed 1 zero, mostrano che quanto piu due stringhe sono simili tanto piu le loro velocita di convergenza si assomigliano, probabilmente sempre in virtu del fatto che la selezione agisce fortemente in regioni vicine dello spazio di ricerca minimizzando l'azione distruttiva del crossover. 101 Figura 3.18: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 00 : : : 00 nel caso di potere risolutivo per tre stringhe di antigeni dierenti 102 Dalle gure 3.19(basso), 3.20(basso) e 3.21(basso) si vede ancor piu chiaramente che il diminuire della dierenza in bit non comporta nessuna dicolta per la convergenza. Dunque l'interpretazione e piuttosto chiara: non e tanto importante la dierenza fra gli anticorpi perche essi possano essere ad elevata specicita, quanto la dimensione della popolazione, ed il parametro , che devono risultare adeguati a fare s che tali anticorpi riescano ad evolvere. 3.2.6 Scoperta della Diversita come Funzione dei Parametri Ne Negli esperimenti precedenti abbiamo aumentato N ma variando di conseguenza in modo che il rapporto N rimanesse costante; adesso si vuole vedere quali eetti abbia sulla popolazione di anticorpi la variazione del solo rispetto ad N . La popolazione antigenica comprende tre stringhe dierenti che sono state prese lunghe 66 bit per comodita, e che sono costruite unendo sequenze di 22 bit posti tutti a valori uguali, il che consente anche una rappresentazione abbreviata della stringa, quando si indichi con il singolo valore di bit la corrispondente sequenza di valori. Dunque la stringa 101 indichera la stringa recante 22 bit uguali ad uno seguiti da 22 bit uguali a zero ed inne da 22 bit uguali ad uno, cos che possiamo aermare di avere una popolazione di antigeni costituita dalle stringhe 000, 110, 011. Ciascun esperimento e stato realizzato per un valore di dierente, ove tali valori sono stati 2, 3, 6, 7, 10; si sono inoltre eseguite sempre 20 prove ripetute per ciascun tipo di esperimento. Poiche il numero di stringhe trovate puo, banalmente, essere minore, maggiore o uguale al numero di antigeni, ci si aspetta che, se il numero di esse dipende dal parametro , si sviluppino stringhe speciche e/o stringhe con un grado di complementarita intermedio che siano in grado di abbracciarne piu di una, come ad esempio avviene per 103 Figura 3.19: In alto: Potere risolutivo per tre stringhe di antigeni dierenti; il terzo anticorpo presenta 48 bit a 0 e 16 ad 1. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 00 : : : 00 104 Figura 3.20: In alto: Potere risolutivo per tre stringhe di antigeni dierenti; il terzo anticorpo presenta 56 bit a 0 e 8 ad 1. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 00 : : : 00 105 Figura 3.21: In alto: Potere risolutivo per tre stringhe di antigeni dierenti; il terzo anticorpo presenta 63 bit a 0 e 1 ad 1. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 00 : : : 00 106 l'individuo 101 che ha medesima distanza di Hamming da tutte le tre stringhe scelte. Riportiamo i graci relativi nelle gure: 3.22(alto), 3.23, 3.24(alto), 3.25(alto) e 3.26(alto), nell'ordine di valori crescenti di , ove le stringhe sono state prese uguali a meno di due bit. Per uguale a 2 e 3 non compaiono gli individui specici ma solo la stringa del tipo 101 e la convergenza non incontra dicolta perche non vi e rumore nella popolazione: g. 3.22(basso); nella popolazione si e inoltre accertata l'assenza completa di stringhe uguali a quelle complementari degli antigeni, il che signica che non solo tali stringhe non sono presenti al momento della verica della convergenza, ma che di fatto non sono mai praticamente comparse. Per tutti gli altri valori di si e avuta la comparsa contemporanea sia degli anticorpi specici per gli antigeni, sia di quelli aventi caratteristiche di multispecicita, ed inoltre si riscontra per tutti i valori di , una tendenza della stringa anticorpale composta di tutti bit a valore 1 a prevalere sulle altre, sia per velocita di convergenza che per numero di esemplari. Questo e probabilmente dovuto alla particolare popolazione di antigeni scelta, in cui i geni con allele zero sono presenti in numero maggiore rispetto a quelli con allele 1, ed alla specica funzione per l'assegnazione del punteggio, la funzione di Hamming, che ha la particolarita di essere lineare nel punteggio di bit e quindi di dare origine ad una sovrapposizione degli eetti. Dal punto di vista del singolo bit della stringa articorpale, questo signica un maggiore punteggio per i bit con valore 1, e dal punto di vista della stringa, un maggiore punteggio se costituita di bit uguali ad uno, e quindi un maggiore incremento di tness. Per l'ultimo valore di le curve relative agli anticorpi specici si distaccano da quella dell'anticorpo multispecico, incrementandosi in frequenza. Dalle gure: 3.24(basso), 3.25(basso) e 3.26(basso) si vede anche che all'aumentare di il rumore diminuisce molto, e la 107 g. 3.25(basso) mostra anche che il secondo picco non e in corrispondenza della distanza di Hamming 44 dalla stringa di riferimento, ma di distanze minori, segno dell'esistenza di moltissime stringhe simili alle stringhe 001 e 100, sebbene il numero di queste non sia particolarmente elevato. Gli stessi esperimenti sono stati eseguiti cambiando solo il numero di individui nella popolazione di anticorpi: 300, 500, e 800, trovando comportamenti simili a quelli descritti per N = 100, ad esempio per valori bassi di (g. 3.27). Per N = 300 e = 6 non si rinviene la stringa 101 multispecica, ma per poco, ed un auspicabile miglioramento con il numero di punti di crossover pari a 2 di fatto non avviene, anzi: se nel primo caso la stringa non viene rinvenuta per poco, poiche la frequenza di cut-o generata nella analisi dei dati e di poco piu alta del piu alto valore delle sue frequenze medie, nel secondo viene completamente annullata perche esiste un drift verso le regioni a maggior tness, quelle corrispondenti agli anticorpi specici. L'esistenza di questa ulteriore stringa puo essere sospettata sulla base della g. 3.28. In tutti i casi tranne quello appena citato, si evidenzia un'ulteriore stringa a carattere multispecico, quella di tutti 0, benche con frequenza piuttosto bassa: gure 3.29, 3.30, 3.31 e 3.32(alto) ed anche il rumore e nettamente diminuito: gure 3.33 e 3.32(basso). Riassumendo: all'aumentare di gli anticorpi complementari degli antigeni tendono ad avere un numero sempre maggiore di rappresentanti, mentre contemporaneamente esistono modeste quantita di elementi multispecici; questi aumentano all'aumentare di N per medesimi valori di ; allo stesso modo, qualsiasi sia N , se e troppo piccolo, non evolve che un anticorpo in grado di abbracciare tutti i possibili antigeni ssati. Nel solo caso N = 300, = 6 coesistono solo individui specici per gli antigeni. 108 Figura 3.22: In alto: N = 100; = 2, tre antigeni dierenti; la popolazione evolve in una singola stringa con proprieta di multispecicita. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 11 : : : 00 : : : 11 109 Figura 3.23: N = 100; = 3, tre antigeni dierenti; la popolazione evolve in una singola stringa con proprieta di multispecicita. 110 Figura 3.24: In alto: N = 100; = 6, tre antigeni dierenti; la popolazione evolve in una singola stringa con proprieta di multispecicita e tre stringhe speciche per gli antigeni. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 00 : : : 00 : : : 11. 111 Figura 3.25: In alto: N = 100; = 7, tre antigeni dierenti; la popolazione evolve in una singola stringa con proprieta di multispecicita e tre stringhe speciche per gli antigeni. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 11 : : : 11 : : : 11 112 Figura 3.26: In alto: N = 100; = 10, tre antigeni dierenti; la popolazione evolve in una singola stringa con proprieta di multispecicita e tre stringhe speciche per gli antigeni. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 00 : : : 00 : : : 11 113 Figura 3.27: N = 300; = 2, tre antigeni dierenti; la popolazione evolve in una singola stringa con proprieta di multispecicita. 114 Figura 3.28: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 11 : : : 11 : : : 11; N = 300; = 6 115 Figura 3.29: N = 300; = 7, tre antigeni dierenti; la popolazione evolve in due stringhe con proprieta di multispecicita e tre stringhe speciche per gli antigeni. 116 Figura 3.30: N = 300; = 10, tre antigeni dierenti; la popolazione evolve in due stringhe con proprieta di multispecicita e tre stringhe speciche per gli antigeni. 117 Figura 3.31: N = 500; = 7, tre antigeni dierenti; la popolazione evolve in due stringhe con proprieta di multispecicita e tre stringhe speciche per gli antigeni. 118 Figura 3.32: In alto: N = 800; = 10, tre antigeni dierenti; la popolazione evolve in due stringhe con proprieta di multispecicita e tre stringhe speciche per gli antigeni. In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 00 : : : 00 : : : 00; N = 800; = 10 119 Figura 3.33: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 00 : : : 00 : : : 11; N = 800; = 10 120 Conclusioni In questo lavoro di tesi sono state studiate ed evidenziate, facendo uso di algoritmi genetici, alcune proprieta del sistema immunitario. Il modello impiegato ha consentito questa analisi introducendo alcune semplicazioni; in particolare, sia gli antigeni che gli anticorpi sono stati schematizzati come stringhe di bit. Le proprieta, peculiari del sistema immunitario che sono emerse sono state: la capacita di reattivita incrociata degli anticorpi con gli antigeni, consistente nella possibilita di riconoscere pattern, cioe le medesime porzioni antigeniche localizzate in punti dierenti nei dierenti antigeni; la possibilita di coesistenza di piu anticorpi, ciascuno altamente specico per un particolare antigene, ed inne la multispecicita ovvero la capacita di riconoscere con dierenti anita antigeni molto diversi fra loro. Tutte queste proprieta sono fondamentali per il SI, poiche gli permettono il riconoscimento di un enorme quantita di antigeni con un numero limitato di anticorpi. Un'altra proprieta importante modellizzabile con l'uso dei GA e stata la capacita di sviluppare anticorpi via via piu specici per un dato antigene partendo da una popolazione a scarsa anita per esso, ed ottenere cos una sequenza di anticorpi di complementarita crescente. Questo e un comportamento tipico del sistema immunitario, dove, la risposta all'antigene non viene eettuata subito con anticorpi altamente ani per essi, ma si ha invece un meccanismo progressivo di aumento della specicita durante la proliferazione clonale delle cellule produttrici di anticorpi, che porta gradualmente alla selezione della classe di immunoglobuline che piu si adattano 121 all'antigene. La capacita di mantenere diverse sottopopolazioni di anticorpi e realizzata grazie ad un meccanismo di sharing, implicito nell'algoritmo, che confrontato con tecniche piu note di sharing esplicito ha mostrato grande ecienza computazionale e nessuna aprioristicita. Cio ore prospettive promettenti nel campo dei GA applicati alla ricerca su funzioni multimodali, che ha spesso soerto di insuccessi o successi parziali, ma soprattutto fornisce un nuovo strumento di ricerca in ambito biologico, che in molti casi puo consentire di aggirare alcuni dei limiti solitamente imposti dagli strumenti matematici con cui si opera, per approdare a modellizzazioni via via piu realistiche. 122 Ringraziamenti Si ringraziano: il Prof. Claudio Franceschi, ordinario della cattedra di Immunologia presso la facolta di Medicina e Chirurgia di Modena, per i suggerimenti oerti; tutti i colleghi della sezione di Fisica Medica dell' Universita di Bologna, ed in particolare il Dott. Gianni Gottardi ed il Dott. Gastone Castellani, per la disponibilita dimostratami; il Sig. Francesco Albanesi per il supporto tecnico oerto sempre con la massima sollecitudine e pazienza. Un ringraziamento del tutto speciale va al Dott. Gianni Di Caro, borsista presso l'Istituto per la Ricerca Scientica e Tecnologica di Trento, verso cui sono debitrice di consigli, attenzione e di un fondamentale supporto tecnico-informatico in varie fasi del presente lavoro. 123 Bibliograa [Aa91] B. Alberts and altri. Biologia molecolare della cellula. Zanichelli, Bologna, 1991. [Ant89] J. Antonisse. A new interpretation of schema notation that overturns the binary encoding constraint. In J.D. Schaer, editor, Proceedings of the Third International Conference on Genetic Algorithms, San Mateo, CA, 1989. MorganKaufmann. [Bac92] T. Back. A user guide to GENEsYs 1.0. Department of Computer Science, University of Dortmund, 1992. [BB91] R.K. Belew and L.B. Booker, editors. Proceedings of the Fourth International Conference on Genetic Algorithms, San Mateo, CA, 1991. Morgan-Kaufmann. [BBM94] D. Beasley, D.R. Bull, and R.R. Martin. An overview of genetic algorithms. Electronic Digest, 1994. [BM88] C. Berek and C. Milstein. The dynamics nature of the antibody repertoire. Immunol. Rev., (105):5{26, 1988. [Boo82] L.B. Booker. Intelligent behaviour as an adaptation to the task environment. PhD thesis, University of Michigan, Ann Arbor, 1982. [Cav70] D.J. Cavicchio. Adaptive Search using simulated evolution. PhD thesis, University of Michigan, Ann Arbor, 1970. University Microlms No. 25-0199. 124 [CS92] F. Celada and P.E. Seiden. A computer model of cellular interactions in the immune system. Immunology Today, 1992. [Dav91] Y. Davidor. A naturally occurring niche and species phenomenon: the model and the rst results. In R.K. Belew and L.B. Booker, editors, Proceedings of the Fourth International Conference on Genetic Algorithms, pages 257{263, San Mateo, CA, 1991. Morgan-Kaufmann. [DB88] M.M. Davis and P.J. Bjorkman. T-cell receptor antigen genes and t-cell recognition. Nature, (334):395{402, 1988. [Deb89] K. Deb. Genetic algorithms in multimodal function optimization. Master's thesis, University of Alabama, Department of Engineering Mechanics, Tuscaloosa, 1989. TCGA Report No. 89002. [DeJ75] K.A. DeJong. An analysis of the behaviour of a class of genetic adaptive systems. PhD thesis, University of Michigan, Ann Arbor, 1975. [DG89] K. Deb and D.E. Goldberg. An investigation of niche and species formation in genetic function optimization. In J.D. Schaer, editor, Proceedings of the Third International Conference on Genetic Algorithms, San Mateo, CA, 1989. Morgan-Kaufmann. [DLB94] J. Darnel, H. Lodish, and D. Baltimore. Biologia molecolare della cellula. Zanichelli, Bologna, 1994. [Eis93] H.N. Eisen. Immunologia generale. Zanichelli, Bologna, 1993. [FJSP93] S. Forrest, B. Javornik, R. E. Smith, and A.S. Perelson. Using genetic algorithms to explore pattern recognition in the immune system. Evolutionary Computation, 1(3):191{ 211, 1993. 125 [FKPP87] J.D. Farmer, S.A. Kauman, N.H. Packard, and A.S. Perelson. Adaptive dynamic networks as models for the immune system and autocatalytic sets. Ann. N. Y. Acad. Sci., 54:118, 1987. [FPP86] J.D. Farmer, N.H. Packard, and A.S. Perelson. The immune system, adaptation, and machine learning. Physica D, 22:187{204, 1986. [Gol89] D. Goldberg. Genetic Algorithms in Search, Optimization and Machine Learning. Addison-Wesley, 1989. [GR87] D.E. Goldberg and J. Richardson. Genetic algorithms with sharing for multimodal function optimization. In J. Grefenstette, editor, Proceedings of the Second International Conference on Genetic Algorithms, pages 41{49, Hillsdale, NJ, 1987. Lawrence Erlbaum Associates. [Gre87a] J. Grefenstette, editor. Proceedings of the Second International Conference on Genetic Algorithms, Hillsdale (NJ), 1987. Lawrence Erlbaum Associates. [Gre87b] J.J. Grefenstette. A user's guide to GENESIS. Navy Center for Applied Research in Articial Intelligence, Washington, D.C., 1987. [Hol75] J.H. Holland. Adaptation in natural and articial systems. University of Michigan Press, Ann Arbor, MI, 1975. [Inm78] J.K. Inman. The antibody combining region: speculations on the hypothesys of general multispecicity. In G.I. Bell, A.S. Perelson, and Jr.G.H. Pimbley, editors, Theoretical Immunology, chapter 9, pages 243{278. 1978. [LGS93] S.E. Luria, S.J. Gould, and S. Singer. Una visione della vita - Introduzione alla biologia. Zanichelli, Bologna, 1993. 126 [Mah93] S.W. Mahfoud. Simple analytical models of genetic algorithms for multimodal function optimization. In S. Forrest, editor, Proceedings of the Fifth International Conference on Genetic Algorithms, page 643, San Mateo, CA, 1993. Morgan-Kaufmann. IlliGAL Report No. 93001. Department of General Engineering, University of Illinois, Urbana Champaign. [NW92] A. Neumann and G. Weisbuch. Window automata analysis of population dynamics in the immune system. Bull. Math. Biol., 54:21{44, 1992. [Par90] G. Parisi. A simple model for the immune network. Proc. Natl. Acad. Sci. USA, 87:429{433, 1990. [Per89] A.S. Perelson. Immune network theory. Immunological Reviews, (110):1{36, 1989. [Per92] A.S. Perelson. Mathematical approaches in immunology. In S.I. Andersson, A.E. Andersson, and U. Ottoson, editors, Theory and Control of Dynamical Systems, pages 200{230, Singapore, 1992. World Scientic. [PO79] A.S. Perelson and G.F. Oster. Theoretical studies of clonal selection: minimal antibody repertoire size and reliability of self-nonself discrimination. J. theor. Biol., 81:645{670, 1979. [RBM94] I. Roitt, J. Brosto, and D. Male. Immunologia. Zanichelli, Bologna, 1994. [Sch89] J.D. Schaer, editor. Proceedings of the Third International Conference on Genetic Algorithms, San Mateo, CA, 1989. Morgan-Kaufmann. [SFP93a] R. E. Smith, S. Forrest, and A.S. Perelson. Population diversity in an immune system model: implications for genetic search. In L.O. Whitley, editor, Foundations of 127 Genetic Algorithms 2, pages 153{165, San Mateo, CA, 1993. Morgan-Kaufmann. [SFP93b] R. E. Smith, S. Forrest, and A.S. Perelson. Searching fo diverse, cooperative populations with genetic algorithms. Evolutionary Computation, 1(2):127{149, 1993. [Sie88] H.B. Sieburg. A logical dynamic systems approach to the regulation of antigen-driven lymphocyte stimulation. In A.S. Perelson, editor, Theoretical Immunology, volume Part One of SFI Studies in the Sciences of Complexity, pages 273{ 293. Addison-Wesley, 1988. [Var86] Autori Vari. Le difese immunitarie - Come l'organismo riconosce se stesso ed il mondo esterno. Le Scienze S.p.A., Milano, 1986. [Var92] Autori Vari. La nuova immunologia - L'io guarda se stesso per conoscere il mondo esterno. Le Scienze S.p.A., Milano, 1992. [VCDV88] F. Varela, A. Coutinho, B. Dupire, and N.M. Vaz. Cognitive networks: immune, neural, and otherwise. In A.S. Perelson, editor, Theoretical Immunology, Part Two, page 359. Addison-Wesley, Redwood City, CA, 1988. [Vil92] M. Villani. Algoritmi genetici di ottimizzazione su reti di transputer. Tesi di Laurea. Dipartimento di Fisica, Universita degli Studi di Bologna, 1992. [WA88] G. Weisbuch and H. Atlan. Control of the immune response. Journal of Physics, 21(A):L189{L192, 1988. 128