Universit a degli Studi di Bologna Un modello per lo studio

Universita degli Studi di Bologna
FACOLTA DI SCIENZE MATEMATICHE, FISICHE E NATURALI
Corso di Laurea in Fisica
Un modello per lo studio della diversita anticorpale
mediante algoritmi genetici
Relatore:
Chiar.mo Prof.
Ferdinando Bersani
Tesi di Laurea
Correlatori:
di:
Chiar.mo Prof.
Silvana Valensin
Renato Campanini
Dott.
Gianni Di Caro
Sessione Autunnale
Anno Accademico 1993 - 1994
Indice
Introduzione
1
1 Il Sistema Immunitario
1.1 Caratteristiche Generali . . . . . . . . . . . . . . . . . .
1.2 La Proteina . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 L'anticorpo . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 La Sintesi Proteica . . . . . . . . . . . . . . . . . . . . .
1.4.1 Il DNA e l'RNA . . . . . . . . . . . . . . . . . .
1.4.2 Il Meccanismo di Sintesi . . . . . . . . . . . . .
1.4.3 Possibili Alterazioni del Patrimonio Genetico
1.4.4 Lo Splicing . . . . . . . . . . . . . . . . . . . . .
1.5 L'Ipotesi di Ricombinazione Somatica . . . . . . . . .
1.5.1 I Geni per le Catene Leggere L . . . . . . . . .
1.5.2 I Geni per le Catene Pesanti H . . . . . . . . .
1.5.3 Un po' di Numeri . . . . . . . . . . . . . . . . .
1.6 Il Linfocita B . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 I Macrofagi . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8 Il Linfocita T . . . . . . . . . . . . . . . . . . . . . . . .
1.9 Le Linfochine . . . . . . . . . . . . . . . . . . . . . . . .
1.10 I Geni MHC . . . . . . . . . . . . . . . . . . . . . . . . .
1.11 Il Sistema Complemento . . . . . . . . . . . . . . . . . .
1.12 La Selezione Clonale . . . . . . . . . . . . . . . . . . . .
1.13 Il Ciclo della Risposta Immunitaria . . . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
5
6
11
11
12
13
16
17
18
20
23
25
30
30
33
34
35
37
39
2 Algoritmi Genetici
42
2.1 Il Teorema dello Schema . . . . . . . . . . . . . . . . . . . 49
ii
2.2 Le Nicchie Ecologiche . . . . . . . . . . . . . . . . . . . . 52
2.2.1 Il Fitness Sharing . . . . . . . . . . . . . . . . . . 53
2.3 Il Criterio di Termine . . . . . . . . . . . . . . . . . . . . 57
3 Un Modello Semplicato del Riconoscimento e della Diversita
Anticorpali
59
3.1 La Cross-Reattivita: Analisi e Risultati . . . . . . . . . 62
3.2 La Specicita e la Multispecicita . . . . . . . . . . . . . 64
3.2.1 Procedura di Analisi dei Dati . . . . . . . . . . . 79
3.2.2 Stabilita della Diversita Anticorpale . . . . . . . 80
3.2.3 Scoperta della Diversita . . . . . . . . . . . . . . 86
3.2.4 Dimensione Critica della Popolazione di Anticorpi . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.2.5 Potere Risolutivo del Modello . . . . . . . . . . . 99
3.2.6 Scoperta della Diversita come Funzione dei
Parametri N e . . . . . . . . . . . . . . . . . . . 103
Conclusioni
122
Ringraziamenti
123
Bibliograa
123
iii
Introduzione
Il sistema immunitario e un sistema biologico altamente evoluto,
la cui funzione e quella di difendere l'organismo da agenti estranei
che ne minaccino l'integrita (antigeni). Nello svolgere le proprie
funzioni fa uso di meccanismi di apprendimento, memorizzazione e
riconoscimento di pattern, la cui complessita ne rende dicoltosa
la modellizazione con metodiche tradizionali come le equazioni differenziali o i processi stocastici. Per questo motivo la ricerca va sempre piu orientandosi verso l'uso di tecniche matematiche come gli automi cellulari[CS92, NW92, Sie88], le reti[FKPP87, VCDV88, Per89]
e gli algoritmi evolutivi[SFP93a, FJSP93] che sfruttano, seguendo
paradigmi dierenti, meccanismi di tipo biologico e/o meccanismi
d'interazione elementare tra i costituenti il sistema, per dare origine
a comportamenti collettivi complessi.
A questo proposito sottolineamo come anche lo studio dei meccanismi di base che presiedono al funzionamento del sistema immunitario, in tempi recenti sia stato fatto oggetto di studio da parte di
illustri sici e matematici[Par90, FPP86, WA88, Per92].
In un recente lone d'indagine[FJSP93], portato avanti da un gruppo
aerente ad A.S. Perelson del Los Alamos National Laboratory, e
a cui ci si e ispirati per il presente lavoro di tesi, si e fatto uso
di algoritmi genetici in quanto essi si rivelano appropriati per una
modellizzazione molto aderente alla realta biologica, consentendo
contemporaneamente una notevole essibilita e semplicita d'uso.
1
Lo scopo che ci si e preposto in questa tesi e una indagine della generazione della diversita anticorpale che rappresenta, in ambito immunologico, uno degli argomenti centrali di discussione. Infatti uno
degli aspetti piu straordinari del sistema immunitario e la capacita
di riconoscere un numero praticamente illimitato di antigeni con un
numero grande ma limitato di anticorpi, generati con una quantita
molto ristretta di geni, facendo leva sulla dierenziazione anticorpale che produce strategie di ottimizzazione delle risorse, quali il
riconoscimento di piu antigeni diversi da parte di un singolo anticorpo, o il riconoscimento di un antigene da parte di piu anticorpi.
Per questo scopo si e costruito un modello molto schematico e semplicato della risposta anticorpale, le cui componenti sono state fatte
evolvere utilizzando un algoritmo genetico ed e stato studiato il processo di generazione della dierenziazione anticorpale in relazione
al variare delle popolazioni dei possibili antigeni ed anticorpi ed al
variare dei meccanismi di interazione tra esse. Cio presenta anche
un interesse nell'ambito della tematica degli algoritmi genetici, in
quanto fornisce un innovativo risultato per cio che concerne il comportamento di tali algoritmi nel settore delle funzioni multimodali,
orendo nuove opportunita d'indagine.
2
Capitolo 1
Il Sistema Immunitario
In questo capitolo verranno descritti i costituenti fondamentali del
sistema immunitario[LGS93, DLB94, Aa91, Eis93, RBM94, Var86,
Var92] e il modo in cui questi concorrono alla difesa dell'organismo.
1.1 Caratteristiche Generali
Il sistema immunitario svolge il compito di difesa dell'integrita dell'organismo, sia che questa sia minata da agenti esterni, sia che lo sia
da agenti interni. Questo compito si articola in due fasi successive
che consistono la prima nel riconoscimento dell'elemento estraneo
che minaccia l'organismo, dove estraneo non vuole dire necessariamente esterno, e la seconda nell'attuazione di risposte generalizzate
atte alla neutralizzazione dell'antigene. Queste ultime vengono chiamate funzioni eettrici, mentre con il termine antigene si intende
qualsiasi sostanza in grado di provocare la risposta immunitaria .
Per svolgere la propria azione il sistema immunitario si avvale di tre
strumenti fondamentali: cellule, molecole anticorpali in soluzione e
linfochine, cos che si parlera di immunita cellulare nel caso in cui
la risposta immunitaria si attui attraverso le cellule, e di immunita
umorale se essa si realizza grazie alle molecole in soluzione. Le cellule sono responsabili dell'opera di riconoscimento degli antigeni,
1
Una denizione in senso piu stretto di antigene e quella di molecola legata dagli anticorpi
indipendentemente dalla risposta dell'organismo. Di norma gli antigeni immunogenici sono
macromolecole di peso molecolare maggiore di 2000 Dalton.
1
3
che compiono per mezzo di molecole collegate alla membrana plasmatica, che e la membrana delimitante la cellula, ma poste dal lato
rivolto all'esterno: sono i linfociti T e B.
Le molecole in soluzione sono proteine, chiamate nell'insieme immunoglobuline ed indicate con Ig, che costituiscono il 20% delle
proteine presenti nel sangue: sono i cosiddetti anticorpi.
Le linfochine sono anch'esse delle proteine, ed il loro ruolo e di coadiutori nella risposta immunitaria attraverso la stimolazione delle
risposte umorale e cellulare e della produzione dei fagociti, cellule
adibite all'uccisione, ingestione e digestione di elementi estranei e di
detriti cellulari.
In un essere umano si trovano circa 10 cellule linfocitarie e 10
anticorpi. Le cellule immunitarie vengono prodotte ed elaborate
nei cosiddetti organi primari: midollo osseo, timo e milza, ed alcune di esse hanno il compito di produrre e secernere le molecole
immunitarie; sia le cellule che le molecole vengono poi veicolate
nell'organismo dalle circolazioni sanguigna e linfatica. Brevemente:
il midollo osseo e il luogo di fabbricazione dei linfociti T e B, mentre il timo e quello di maturazione dei linfociti T; la circolazione
sanguigna fa s che le cellule e le molecole, attraversando le pareti
capillari, raggiungano i tessuti, mentre il sistema linfatico e il sistema vascolare di ritorno, che raccoglie molecole anticorpali, cellule
linfocitarie e liquido interstiziale dei tessuti per riportarli nella circolazione sanguigna; il raccordo tra i due sistemi vascolari avviene
nella vena succlavia. Particolari punti di accumulo dei linfociti sono
i linfonodi, dove i macrofagi, cellule non specializzate, inghiottono
e degradano gli antigeni, mostrandone poi frammenti sulla propria
supercie cellulare perche i linfociti, cellule specializzate, possano
riconoscerli unitamente agli antigeni integri. Lo stesso avviene nella
milza, dove i dierenti tipi di linfociti collaborano per la eliminazione
degli elementi estranei. Quindi, i linfonodi nel sistema linfatico e la
milza in quello circolatorio, costituiscono punti in cui l'incontro dei
12
4
20
R
N H
2
C
H
O
C
OH
Figura 1.1: R= gruppo laterale, N2 H = gruppo aminico
linfociti con eventuali antigeni presenti e facilitato dal loro accumulo.
Per approfondire la dinamica del riconoscimento e della neutralizzazione occorre una maggiore conoscenza degli elementi cellulari ed
umorali, ma prima ancora ci necessita un breve cenno alle proteine.
1.2 La Proteina
E denita aminoacido una molecola formata da un atomo centrale
di C, detto carbonio , a cui sono legati, ai quattro vertici di un
tetraedro: un atomo di H, un gruppo laterale, un gruppo aminico,
ovvero contenente -NH, e inne un gruppo carbossilico COOH (g.
1.1) Il legame peptidico e il legame chimico fra il gruppo aminico
di un aminoacido ed il gruppo carbossilico di un altro con eliminazione di una molecola di acqua, e si dice polipeptide una catena
di aminoacidi legati da legame peptidico. Inne e denita proteina
una molecola formata da uno o piu polipeptidi, variabile da pochi a
migliaia di aminoacidi. Ogni proteina ha forma, dimensione e peso
unici e deniti, con pesi molecolari che vanno da 5000 a milioni di
Dalton. Una Caratteristica saliente delle proteine e di essere costituite soltanto da 20 dei piu di cento aminoacidi dierenti esistenti.
La struttura proteica e classicata in base a:
struttura primaria individuata dalla sequenza aminoacidica dei polipeptidi e che come tale e all'origine delle strutture secondaria e
terziaria;
5
struttura secondaria che emerge dai ripiegamenti della catena peptidica stabilizzati dalla formazione di legami a idrogeno nello
scheletro ma non fra le strutture laterali;
struttura terziaria generata dalle associazioni fra i gruppi laterali
degli aminoacidi nel polipeptide;
struttura quaternaria individua la forma complessiva di una proteina,
ottenuta per associazione di piu polipeptidi.
Il codice per la formazione di una qualsiasi proteina e contenuto nel
patrimonio genetico degli individui, il DNA.
1.3 L'anticorpo
L'anticorpo e una molecola proteica costituita tipicamente da due
coppie di catene L e H, ove L sta per Light, leggero, e H per
Heavy, pesante, in quanto sono due catene di aminoacidi una molto
piu pesante dell'altra che insieme costituiscono l'unita fondamentale dell'anticorpo. Ciascuna catena H e unita alla catena L da
un legame chimico covalente fra atomi di S, detto legame disolfuro;
un ulteriore legame disolfuro fra atomi di S appartenenti all'una e
all'altra catena H tiene unite le due coppie H L. Ne risulta una struttura ad Y i cui due bracci sono entrambi costituiti di una catena L
ed una parte della catena H disposte parallelamente, regione detta
Fab, mentre il "gambo" risulta formato dalle rimanenti porzioni di
catene H, anch'esse aancate, regione detta Fc. Ogni catena L e
composta da una regione costante adiacente ad una variabile, mentre
le regioni costanti e variabile per la catena H sono rispettivamente
tre ed una. Queste regioni costante, C, e variabile, V, sono cos
dette perche l'una e costituita da una successione di aminoacidi che
e sempre la stessa per ogni classe di anticorpi, mentre la successione
di aminoacidi dell'altra varia da anticorpo ad anticorpo. Cos rinveniamo in ogni Fab le regioni costante e variabile della catena L
ed una costante e quella variabile della catena H, mantre in Fc le
6
due rimanenti regioni costanti di quest'ultima (g. 1.2). La regione
V, che ospita al suo interno tre regioni per L e quattro regioni per
H, dette ipervariabili o CDR, acronimo di regione determinante la complementarita, costituisce il cosiddetto paratopo, ossia quella porzione
dell'anticorpo che va a legarsi all'antigene, o, ancora meglio, a quella
porzione di molecola di antigene detta epitopo e costituita di circa
una decina di aminoacidi. Sinonimi di paratopo ed epitopo sono
rispettivamente determinante anticorpale e determinante antigenico,
e diremo che un anticorpo e specico per un certo antigene se fra
essi vi e grande anita, termine che indica il grado di complementarita epitopo-paratopo. Quest'ultima si congura come un incastro chiave-serratura, ossia una sorta di complementarita sterica tra
la porzione della regione variabile dell'anticorpo ed una porzione
della supercie dell'antigene, resa stabile dai legami deboli che si
generano fra gli atomi e le molecole dell'una e dell'altra struttura
quando essi vengono a trovarsi a distanza ravvicinata; questi sono
dovuti alle forze di Coulomb, ai legami ad idrogeno e a quelli idrofobi sfruttanti le forze di Van der Waals fra gruppi idrofobi. Ne
segue che quanto piu e alta l'anita tanto piu il legame e stabile. e dunque la diversa composizione chimica delle regioni variabili
che, riettendosi in dierenti congurazioni spaziali dovute al ripiegamento del lungo lamento in virtu delle forze attrattive tra gli
atomi che lo compongono, assicura la grande varieta di siti di combinazione per il riconoscimento di qualsiasi tipo di antigene. Piu
precisamente la regione V stabilisce, con la propria struttura tridimensionale, un sito all'interno del quale poter ospitare l'antigene,
mettendolo a stretto contatto con le regioni ipervariabili Diversamente, alla regione costante della catena H, in virtu proprio della
costanza, e attribuito il compito di codica del ruolo di ciascuna
classe a cui gli anticorpi appartengono, determinandone le funzioni
eettrici. La classicazione delle regioni costanti e in catene k e
7
Figura 1.2: Rappresentazione di un anticorpo
8
per la catena L, ed in catene , , , e , con una sottoclassicazione in 4 tipi dierenti per , per la catena H. Monomeri o
polimeri di anticorpi appartenenti alla stessa classe vengono chiamati immunoglobuline che, in virtu delle catene H degli anticorpi
che le costituiscono, vengono suddivise in IgM, IgD, IgG, IgE e IgA.
Quindi, per riassumere, un possibile anticorpo puo essere una immunoglobulina IgM, avente quindi la regione costante della catena
H di tipo , la regione costante della catena L di tipo k o ed inne
le regioni variabili, sia della catena H che di quella di L, qualsiasi.
Vediamo brevemente le diverse Ig:
IgM nella sua forma ancorata alla membrana del linfocita B e un
monomero ed e ivi presente prima dell'incontro con l'antigene,
mentre in forma secreta e la prima classe di anticorpi che si
forma durante la risposta immunitaria, sotto forma di pentamero pentagonale con i 10 paratopi uguali rivolti all'esterno,
cos da essere particolarmente eciente nel riconoscimento di
quegli elementi patogeni, come i virus, che sono multivalenti;
un antigene e multivalente quando presenta piu epitopi tutti
uguali fra loro. Le funzioni eettrici sono :
attivazione del Sistema Complemento (vedi oltre) per l'eliminazione
dei microrganismi patogeni;
attivazione dei macrofagi per l'uccisione e l'ingestione dei
batteri;
IgD e un monomero ma la sua funzione e ancora poco nota;
IgG e il principale anticorpo presente nel siero, in forma di monomero,
ed e prodotto in grosse quantita soprattutto se la stimolazione e
stata multipla. Le funzioni eettrici sono le stesse dell'immunoglobulina
IgM;
IgE Si trova principalmente nei tessuti in cui, in complesso con
l'antigene, attiva il rilascio delle istamine dalle apposite cellule,
causando le reazioni allergiche;
9
IgA Puo avere forma di monomero o polimero, e in quest'ultima
forma si lega ai recettori presenti sugli epiteli a contatto con
il sangue, e per mezzo di essi e veicolato, attraverso le cellule
epiteliali, all'interno dell'epitelio, dove esplica le sue funzioni.
E alle immunoglobuline, sia nella loro forma libera che in quella
legata, che e attribuito in prima istanza il compito del riconoscimento dell'antigene, ed e quindi importante capire come sia possibile, se lo e, generare un numero talmente alto di anticorpi da potersi assicurare la difesa da qualsiasi agente estraneo all'organismo,
sia che esso sia comune all'ambiente e all'epoca in cui l'organismo
vive, sia che possa improvvisamente generarsi ed attaccarlo.
Non meritano piu che una citazione storica due ipotesi che furono
formulate a riguardo: l'ipotesi germinale della diversita anticorpale,
e l'ipotesi di mutazione somatica, che individuavano rispettivamente
nel repertorio genetico trasmesso nel corso delle generazioni e nella
mutazione di alcuni di questi geni la causa della grande diversita anticorpale; nessuna delle due risultava infatti convincente sul piano
proprio dei grandi numeri, dal momento che la quantita complessiva
di geni nel genoma umano, di cui quelli preposti alla codica di anticorpi dovrebbe essere un sottoinsieme, e di molto inferiore al numero
dei possibili anticorpi producibili ( 10 contro 10 ).
L'ipotesi attualmente accreditata, in grado di giusticare il grande
numero di anticorpi possibili, e invece L'ipotesi di Ricombinazione
Somatica; per comprenderne a pieno le potenzialita e pero necessario
fare, come premessa, un breve cenno alla traduzione di una proteina,
ossia al meccanismo della sua formazione a partire dall'informazione
codicata nel DNA.
5
10
10
1.4 La Sintesi Proteica
1.4.1 Il DNA e l'RNA
Il DNA e una molecola reperibile nel nucleo della cellula ed e costituita di due lamenti, o sequenze polinucleotidiche, ove il nucleotide
e una molecola contenente una delle quattro possibili basi degli acidi
nucleici: Timina (T), Guanina (G), Citosina(C), Adenina (A), ed
uno zucchero, il deossiribosio. Nella molecola del DNA la T e sempre accoppiata con A e la G e sempre accoppiata con la C, in modo
che il legame a idrogeno tra basi complementari poste sui due lamenti costituiscano il legame fra gli stessi, conferendogli la tipica
congurazione spaziale a doppia elica. Una molecola di DNA contiene migliaia di geni, le unita codicanti le funzioni dell'organismo,
costituiti ognuno di una sequenza precisa di nucleotidi.
L'RNA e invece costituito di un unico lamento in cui si alternano
sempre quattro basi degli acidi nucleici, solo che in esso la Timina
e sostituita dall'Uracile (U) che ne prende il posto come complementare della A; lo zucchero nei nucleotidi e il ribosio. Questo lamento si forma sullo stampo di un lamento di DNA seguendo il
principio della complementarita fra le basi, ed e lo strumento utilizzato dalla cellula per portare, ove serva, l'informazione genetica
contenuta nel nucleo cellulare, minimizzando in questo modo il rischio di alterazione della stessa con le sue direttive per le cellule di
tutto l'organismo. L'RNA non e una copia di tutto il lamento di
DNA, ma solo di quelle porzioni utili ad esplicare una determinata
funzione, e per potersi creare occorre che il doppio lamento di DNA
si apra come una cerniera per la porzione contenente i geni da duplicare. Ogni molecola di DNA puo ospitare piu molecole di RNA
in crescita contemporaneamente, anche dello stesso tratto genico, e
questo processo di creazione dell'RNA e chiamato trascrizione. Una
volta trascritto l'RNA serve alla sintesi delle proteine, ovunque nella
cellula queste siano richieste, e a seconda del compito che esegue
11
viene denominato: RNA messaggero (mRNA),se funge da messaggero dei geni, RNA di Trasporto (tRNA), se sono molecole di RNA
adibite al trasporto all'RNA messaggero degli aminoacidi specici,
e inne RNA Ribosomico (rRNA), se viene a costituire una parte
dei ribosomi, le strutture cellulari preposte alla sintesi proteica.
1.4.2 Il Meccanismo di Sintesi
Per eettuare la trasformazione di codice genetico in sequenza di
aminoacidi, il polipeptide, e necessaria una corrispondenza tra le
basi del lamento e gli aminoacidi, corrispondenza che e stata biologicamente risolta, con ridondanza, attraverso le possibili combinazioni delle quattro basi degli acidi nucleici a tre a tre. Le 64
possibili triplette di basi, che prendono il nome di anticodoni se
fanno parte di un lamento di tRNA e di codoni se appartengono
al lamento di mRNA, messe in corrispondenza con i 20 possibili
aminoacidi che compongono le proteine cosituiscono il codice genetico, universale per qualsiasi organismo vivente. In realta alcune
triplette non specicano alcun aminoacido ma servono a segnalare
la ne della codica di una sequenza di aminoacidi: sono i codoni
nonsenso.
La sintesi procede da un lamento di mRNA che, dopo essere stato
trascritto ossia formato come copia complementare di una porzione
di DNA, si associa ad un ribosoma ponendosi sulla sua supercie in
corrispondenza del codone di inizio; quest'ultimo e riconosciuto dal
ribosoma stesso in virtu di una precisa sequenza di basi, quelle del
codone piu quelle adiacenti. La molecola di tRNA il cui anticodone
e complementare al codone di inizio vi si attacca, e cos avviene per
tutti i codoni successivi no al codone nonsenso che decreta la ne
della traduzione. Man mano che gli aminoacidi, associati a ciascuna molecola di tRNA che raggiunge la supercie del ribosoma, si
legano grazie ad enzimi che ne catalizzano la reazione chimica, il
lamento di mRNA scorre sulla supercie ribosomica, in modo da
12
liberare l'anticodone che ha gia disposto il proprio aminoacido ed
orire il codone successivo all'anticodone subentrante. Una volta
raggiunto il codone nonsenso l'ultimo anticodone viene rilasciato
unitamente alla proteina formatasi che poi se ne distacca. Poiche le
strutture secondaria e terziaria dipendono dalla sequenza primaria
degli aminoacidi, esse vengono formandosi contemporaneamente ai
legami peptidici e quindi, una volta terminata la traduzione, la proteina ha gia assunto la sua forma denitiva.
Due ultimi argomenti vanno esaminati prima di arontare il meccanismo con cui si crea la diversita anticorpale, e sono quello delle possibili trasformazioni che possono avvenire all'interno dei geni, che, per
quanto nora detto, si puo intuire che si ripercuotono sulle proteine
e la loro funzionalita, e quello delle modiche subite dall'mRNA
trascritto prima della sua traduzione.
1.4.3 Possibili Alterazioni del Patrimonio Genetico
Tra le tante possibili alterazioni che possono avvenire nella composizione chimica dei geni come nelle sequenze degli stessi, alcune sono
le piu signicative e anche quelle coinvolte con maggiore probabilita
nei meccanismi che si dovranno in seguito esaminare.
Occorre inoltre distinguere tra genotipo, l'insieme dei geni, che e
specico per ciascun individuo di una specie, e fenotipo, le caratteristiche siche a cui il genotipo da luogo, soggetto all'inuenza
dell'ambiente che puo fare s che alcuni geni vengano espressi al
posto di altri e quindi che alcune proteine vengano prodotte al posto
di altre. Dunque qualsiasi alterazione genica avra conseguenze solo
se i geni che le hanno subite saranno espressi, o, analogamente, se
si tentera di produrre le proteine corrispondenti. Parleremo di ricombinazione genetica se siamo in presenza di un rimescolamento
del materiale genetico ad opera dei tanti eventi di crossing-over che
si originano durante la fase di produzione dei gameti, le cellule sessuali. Il processo di divisione cellulare che da origine ai gameti e
13
detto meiosi e procede per mezzo di due divisioni successive atte a
ridurre il patrimonio genetico delle cellule glie alla meta di quello
contenuto in qualsiasi altra cellula somatica. In ciascuna di queste
divisioni si individuano piu fasi distinte: profase, metafase, anafase,
telofase. Antecedente alla meiosi e una fase, detta interfase, durante
la quale i cromosomi, normalmente non individuabili nel nucleo, si
rendono visibili e si duplicano, prendendo il nome di cromatidi. Durante la Profase I, quella inerente alla prima delle due divisioni, i
cromatidi di entrambi i cromosomi omologhi, ossia dei cromosomi
della coppia che reca le medesime sequenze geniche, si uniscono,
in corrispondenza di una regione chiamata centromero, formando
una tetrade. I quattro cromatidi cos uniti si intrecciano, scambiandosi a volte segmenti genici omologhi: e l'evento di crossing-over
(g. 1.3); i cromosomi risultanti non hanno perduto alcun gene
ma hanno lunghe sequenze di geni dierenti da quelle presenti in
principio. Il centromero trascina quindi la tetrade su di un piano
equatoriale della cellula dove ha inizio la Metafase I, durante la quale
si formano delle strutture brose, il fuso. Queste ultime, durante la
fase di Anafase I, hanno lo scopo di guidare i cromatidi ai poli opposti della cellula, dopo che la tetrade e stata scissa nelle due coppie
cromatide originale-copia. Questo spostamento avviene per mezzo
del centromero che si orienta e muove lungo le bre del fuso. Durante l'ultima fase, Telofase I, si rigenera la membrana nucleare per
ciascun nucleo mentre quella plasmatica si strozza al centro della
cellula no alla scissione nelle due cellule glie. Alla ne, indipendentemente dagli eventi di crossing-over, in ciascuna cellula glia
e presente meta dal patrimonio genetico originario, benche in duplice copia. Questo risultato e molto diverso da quello che si ottiene
alla ne della mitosi, il processo di divisione delle cellule somatiche,
poiche in quest'ultimo caso, non avendosi la formazione di tetradi
ma solo di coppie originale-copia unite nel centromero, la Metafase
fa in modo che lo sdoppiamento sul piano equatoriale delle coppie e
14
la migrazione dei singoli cromatidi verso ciascun polo, comporti la
conservazione dell'intero patrimonio genetico in entrambe le cellule
glie. La divisione di una cellula somatica si arresta qui, mentre
la meiosi prosegue con un ulteriore sdoppiamento. Infatti ciascuna
delle due prime cellule glie si divide con un processo molto simile
alla mitosi ma che avviene in assenza di profase. La Metafase II
procede cos con la separazione dei due cromosomi di ciascuna coppia ereditata dalle fasi I in corrispondenza del centromero e con il
loro trascinamento verso i poli opposti della cellula. Seguono quindi,
come in precedenza, l' Anafase II ed inne la Telofase II.
Concludendo, se il risultato della divisione di una cellula somatica porta a due cellule glie recanti il medesimo patrimonio genetico
originale, sia per il numero dei cromosomi conservati, cellule diploidi,
sia per l'integrita degli stessi, al contrario la divisione cellulare che
da origine ad un gamete fornisce quattro cellule glie aventi ciascuna meta del patrimonio genetico parentale, cellule aploidi, i cui
cromosomi componenti risultano piuttosto diversi dagli originali a
causa dei numerosi eventi di crossing-over intervenuti.
Diversamente dal crossing-over la mutazione e una modica della
sequenza di basi all'interno del gene, per cui la proteina prodotta
e dierente dall'originale e se la mutazione ha interessato le cellule germinali tale modica viene trasmessa alla prole. Benche esistano dei sistemi di riparazione dei danni non sempre essi sono
ecaci e in tale caso le modiche subite possono comportare tipi
diversi di conseguenze. Se il codone codica per un aminoacido diverso dall'originale la proteina risultante puo essere non funzionale,
avere uguale funzionalita, avere uguale funzionalita solo in particolari condizioni come ad esempio di temperatura, ma anche essere
piu eciente; viceversa se il codone e stato trasformato in un codone
nonsenso la sintesi proteica terminera prematuramente e la proteina
risultante essendo incompleta non sara in grado di svolgere la proprie
funzioni.
15
Figura 1.3: Il meccanismo di crossing-over: il patrimonio genetico iniziale e dato
da: AA,BB per il primo individuo, e aa,bb per il secondo; il patrimonio nale
degli individui e rispettivamente: AA,Bb e aa,Bb
1.4.4 Lo Splicing
E un processo che permette di escludere da un lamento di mRNA
trascritto quelle zone che non codicano per la proteina richiesta.
Poiche l'mRNA e appunto una copia di parte del DNA e in esso che
occorre ricercare le sequenze geniche corrispondenti; tali sequenze
esistono e vengono denominate introni, mentre esoni sono chiamate
le sequenze che hanno un corrispondente in sequenze di aminoacidi.
Nel lamento di mRNA, in corrispondenza dei tratti codicati dagli
introni e per eetto di particolari enzimi, si creano delle anse che si
saldano alla base e successivamente vengono eliminate, permettendo
in questo modo a regioni codicate da esoni di divenire adiacenti.
Si pensa che tale meccanismo serva alla cellula per discriminare tra
le proteine che deve produrre per il proprio funzionamento e quelle
utili ad altre cellule, ed e giusticato dal fatto che nelle cellule degli
organismi eucarioti i geni che codicano per la stessa funzione si
16
possono trovare a grande distanza sullo stesso cromosoma o addirittura su cromosomi diversi, e quindi per poterne attivare contemporaneamente la funzionalita e necessario sceglierli fra tutto l'RNA
prodotto.
1.5 L'Ipotesi di Ricombinazione Somatica
Postula l'esistenza di piu geni della linea germinale che siano in
grado di codicare per uno stesso segmento di RNA, corrispondente
ad una regione dell'anticorpo, in modo che il grande assortimento
sia dovuto a tutte le loro possibili combinazioni combinate con tutte
le possibili combinazioni di tutti i geni codicanti per tutti gli altri
segmenti che concorrono alla formazione dello stesso anticorpo.
Il nome dato a tale ipotesi viene dalla denizione di ricombinazione
somatica: unione di due sequenze di DNA, separate nella cellula embrionale, in una unica sequenza attiva nella cellula somatica durante
lo sviluppo ed il dierenziamento cellulare. E infatti la cellula produttrice di anticorpi giunge a maturazione quando si compone una
combinazione fra le tante possibili del corredo genico che a partire
da quel momento diviene il gene assegnato, codicante per l'RNA
relativo all'anticorpo da produrre e tramandato all'atto della riproduzione cellulare. Per individuare il sito in cui deve avvenire la
scissione o la giunzione dei segmenti di DNA esistono in esso delle
sequenze speciche di nucleotidi, dette sequenze segnale, di sette
nucleotidi, sequenza eptamero, o di nove nucleotidi, sequenza nonamero, che fungono appunto da segnale. Un ulteriore causa di variabilita la si riscontra nel meccanismo di giunzione dei segmenti, in
quanto questa non avviene sempre in corrispondenza del medesimo
nuleotide, ma si puo avere uno scarto di uno o due di essi, cos che
ne conseguono due dierenti condizioni: una in cui la tripletta risultante in corrispondenza della giunzione varia di volta in volta ma
le triplette a monte e a valle di essa rimangono invariate, e l'altra
in cui tutte le triplette che seguono quella in corrispondenza della
17
giunzione sono stravolte nelle proprie sequenze. Le due giunzioni,
che sono dette rispettivamente in fase e fuori fase danno origine ad
una proteina utile, benche sempre diversa, nel primo caso ed ad
una proteina nonsenso nel secondo caso. Un dato sperimentale a
conforto dell'ipotesi in questione e l'aver rinvenuto, nelle cellule non
produttrici di anticorpi, i geni per C e V in siti molto distanti fra loro
e in forma di segmenti discontinui di DNA, al contrario di quanto
avviene nelle cellule produttrici di anticorpi.
Un'ulteriore causa di variabilita e poi stata riscontrata nell'alto rapporto di mutazione che si instaura dopo che il linfocita B e entrato
in contatto con un antigene e si riproduce, provocando cambiamenti
frequentissimi, con il susseguirsi delle generazioni, in una particolare
regione dell'anticorpo a causa di cio chiamata ipervariabile.
Occorre dire che ormai, date le numerose evidenze sperimentali,
questa e gia molto piu che un'ipotesi, e passando in rassegna tutti
i geni trovati e calcolandone tutte le possibili combinazioni, comprese quelle dovute agli eventi su citati, ci si puo rendere conto della
potenza espressa da un tale meccanismo con un numero piu che
ragionevole di elementi fondamentali.
1.5.1 I Geni per le Catene Leggere L
Il gene per la regione variabile (g. 1.4) e diviso in due parti separate da una breve sequenza intercalare: la prima, indicata con L in
quanto e detta leader, codica un segmento di testa idrofobo composto di diciassette-venti aminoacidi che serve a veicolare l'anticorpo
attraverso la membrana cellulare per poi staccarsi; il secondo, indicato con V, codica per novantotto dei centootto aminoacidi della
regione variabile, mentre i rimanenti sono codicati da un altro gene,
indicato con J, posto a valle del precedente. Nel segmento codicante per la catena k si trovano varie sequenze LV distanziate fra
loro da introni, quindi seguono cinque geni J in successione, anch'essi
separati da sequenze intercalari, e inne il gene, indicato con C, per
18
la regione costante. Nel segmento codicante per la regione invece,
dopo le sequenze LV, si ha una successione di quattro nel topo e sei
nell'uomo geni C, ciascuno preceduto da un gene J, sempre separati
da introni.
La ricombinazione di questi geni da un gene unico nito, ottenuto
scartando tutte le LV tranne una, e tutti i J precedenti quello che
si congiunge a V con eliminazione dell'introne intermedio, cos da
ottenere la sequenza di geni L, V/J, C separati da sequenze intercalari. La trascrizione del gene in RNA necessitera dello splicing, per
l'eliminazione delle sequenze intercalari e degli eventuali J di troppo,
per dare origine ad un mRNA maturo per la traduzione in proteina.
Il prodotto di questa traduzione viene chiamato pero precursore
della catena leggera, in quanto porta ancora con se quelle sequenze di
aminoacidi codicati dalla porzione genica L, e si trasformera nella
catena leggera che viene solitamente descritta dopo il distacco di
questa porzione idrofobica. Per congiungere le due porzioni geniche
L+V e J sono necessarie due dierenti tecniche adatte alle due differenti situazioni (g. 1.5): L precede V ed L segue V nel DNA;
nel primo caso parleremo di cancellazione, poiche si crea un ansa
di tutto il segmento genico frapposto, che si chiude alla base mettendo a contatto V e J e che inne viene eliminato; nel secondo
caso parleremo di inversione perche, per ottenere la giusta sequenza
LVJ e necessario che il lamento si ripieghi su se stesso in modo da
portare la posizione di V vicina a quella di J e trasferire gli esoni di
L e V sul segmento adiacente all'esone di J. Cos facendo si ha solo
un trasferimento di geni mentre nel primo caso la porzione genica
frapposta veniva persa.
Il sito di congiungimento tra V e J, corrispondente al codone 96, e
una regione ipervariabile, dal momento che il punto di giunzione si
puo spostare di qualche nucleotide.
Poiche agli estremi di ciascun gene sono presenti le sequenze segnale
di eptameri e nonameri intercalate da sequenze distanziatrici di circa
19
undici o ventidue nucleotidi, si pensa che V e J si scelgano, magari
con l'aiuto di enzimi, in virtu della complementarita di queste sequenze. Esse, unendosi ovunque eptameri e nonameri abbiano basi
complementari, formano una struttura a cerniera che mette a contatto i due geni, e poi si stacca lasciandoli uniti. Se la ricombinazione
di V e J da per prodotto un gene inattivo, con tutta probabilita si
fa ricorso al gene sul secondo cromosoma. Normalmente infatti ha
luogo quella che si chiama esclusione allelica, ove l'allele e ciascuna
copia di un determinato gene su ciascun cromosoma della coppia, che
implica che solo il gene di uno dei due cromosomi subisce la ricombinazione somatica; ma sperimentalmente si trova che in alcuni casi
entrambi gli alleli la subiscano, cos che si e formulata l'ipotesi che
questo avvenga quando la prima e fallita. La stessa ipotesi dovrebbe
servire a giusticare l'esistenza delle due catene leggere k e , codicate su due diversi cromosomi, poiche sembra che il riassetto per
il gene codicante per sia messo in atto solo una volta che quello
per il gene codicante per k abbia prodotto un gene inattivo, come
se esistessero quindi due meccanismi di tutela, uno in piu rispetto al
solo allelico. Probabilmente e la stessa produzione di un anticorpo
funzionale ad inibire il riassetto di .
1.5.2 I Geni per le Catene Pesanti H
Per quanto riguarda la regione variabile esistono anche per H i geni
L, V e J, ma un ulteriore segmento codicante per tredici aminoacidi
e interposto fra V e J, il gene D, che codica gran parte della terza
regione ipervariabile. Dunque in questo caso (g. 1.6) vi e ricombinazione sia fra V e D che fra D e J, ed inoltre si prevede non solo
la perdita ma anche l'aggiunta di nucleotidi, grazie ad un enzima
presente nella cellula solo durante la ricombinazione del gene per la
catena H. Le regioni aggiunte sono indicate con N, cos che la sequenza genica nale della regione variabile e V N D N J. Perche il
gene sia attivo occorre che N D N, che puo arrivare anche a trenta
20
Figura 1.4: Geni per la catena leggera L
21
Figura 1.5: Cancellazione ed inversione dei segmenti genici
22
nucleotidi, sia in fase nelle giunzioni. Si contano circa ottanta V, sei
J, cinquanta D nell'uomo.
Per quanto riguarda la regione costante che segue J si hanno in sequenza i geni: Mu, Delta, Gamma3, Gamma1, Gamma2b, Gamma2a,
Epsilon, Alfa. Il gene Mu codica due tipi di RNA: il primo contiene la sequenza per la parte idrofoba della proteina che consente
l'ancoraggio alla supercie cellulare dell'IgM, mentre il secondo no,
sintetizzando l'IgM secreta. Cio e possibile perche ciascun gene per
un tipo di regione costante e in realta codicato non in una sola
ma in piu sequenze, alternate a sequenze non codicanti; dunque,
se durante la fase di splicing dall'RNA trascritto all'mRNA maturo
le regioni non codicanti vengono eliminate, un analogo meccanismo permette di escludere sequenze codicanti durante la fase di
trascrizione e prima di quella di splicing. Inne si suppone che meccanismi analoghi regolino la trascrizione di qualsiasi altro gene della
regione costante.
1.5.3 Un po' di Numeri
E' importante, per supportare la teoria che abbiamo appena esposto, esaminare l'eettivo "carico di diversita" che essa e in grado
di prevedere in seno alla popolazione di possibili anticorpi, e dunque:
1. Catena leggera (supponiamo di trattare la catena k poiche la e piu rara): circa 100 geni LV, 5 geni J, 1 gene C, un fattore
10 di variabilita associato alle giunzioni. Ne segue un totale di:
100 5 1 10 = 5 10 possibili catene L.
3
2. Catena pesante: 80 geni V, 6 geni J, 50 geni D, un fattore 10
di variabilita associato alle giunzioni, un fattore di variabilita
100 legato alle regioni N, 1 gene C. Ne segue un totale di :
80 6 50 10 100 = 24 10 possibili catene H.
6
23
Figura 1.6: Geni per la catena pesante H
24
Combinando tutte le possibili catene L con tutte le possibili catene
H si conclude che possono esistere:
5 103 24 106 1011
possibili anticorpi dierenti, dato che rispecchia benissimo l'eettiva
quantita di anticorpi presenti nell'uomo.
Spiegato cosa sia e come venga creato un anticorpo occorre descrivere le cellule che lo generano, i linfociti B, e quelle che a queste sono
strettamente collegate nel meccanismo di risposta immunitaria, i linfociti T ed i macrofagi, includendo le molecole come le linfochine e i
peptidi codicati dai geni MHC, e inne i Sistema Complemento ed
il meccanismo della selezione clonale, per capire come tutti questi
elementi concorrano alla neutralizzazione dell'antigene.
Una rappresentazione graca d'insieme in gura 1.7 illustra quanto
sara descritto nei prossimi paragra.
1.6 Il Linfocita B
Viene prodotto nel midollo osseo durante tutta la vita dell'organismo
e presenta dei marcatori di supercie tipici che permettono di distinguerlo dal linfocita T; ha una vita media di qualche giorno se non
incontra antigeni circolando nei vasi linfatici e sanguigni, altrimenti
va incontro a maturazione e dierenziazione. Quando e ancora nel
midollo osseo il linfocita B viene chiamato pre-linfocita B, in quanto
presenta i geni per la catena H gia completi e recanti il gene Mu
per la regione costante, ma i geni per la catena leggera ancora incompleti. Quando il proprio corredo genico specico e completo e
presenta ancorate alla supercie le IgM e le IgD, il linfocita, che
in questa fase e chiamato cellula B vergine, viene espulso dal midollo per giungere alla circolazione sanguigna e linfatica, e non va
incontro a divisione cellulare se non viene a contatto con l'antigene.
Se cio avviene, o meglio se gli anticorpi di supercie riconoscono
25
Figura 1.7: Quadro riassuntivo dei meccanismi immunitari
26
un antigene, il linfocita B vergine si attiva e comincia a riprodursi
ogni otto- ventiquattro ore; in questa fase e detto blasto. Sulla sua
supercie si rinvengono i recettori per le linfochine secrete dai linfociti Th (vedi oltre), i peptidi in cui e stato degradato l'antigene
riconosciuto e il complesso MHC-II (vedi oltre). Se nei pressi del
linfocita B e presente un linfocita Th con i recettori opportuni per il
riconoscimento contemporaneo di un frammento dell'antigene e del
complesso MCH-II come in un meccanismo a doppia chiave, allora
ci sara produzione di linfochine da parte del Th che stimoleranno il
blasto alla proliferazione ed alla dierenziazione in cellula memoria
o plasmacellula.
Le cellule memoria sono cellule B che rimangono permanentemente
all'interno dell'organismo dopo che la cellula genitrice ha riconosciuto l'antigene, permettendo di conservare l'anticorpo con il paratopo
ane ad esso anche dopo che e stato debellato. Se lo stesso antigene dovesse ripresentarsi una seconda volta ed incontrare la cellula
memoria, questa ne sarebbe attivata cos come precedentemente era
avvenuto con la cellula B vergine, ma i tempi della risposta immunitaria dierirebbero dai precedenti sia in rapidita che in ecienza.
Queste dierenze fra la risposta primaria, corrispondente al primo
incontro dell'anticorpo con l'antigene, e la risposta secondaria, corrispondente al secondo contatto antigene-anticorpo, sono rappresentate nel graco che segue, mentre nel graco successivo e riportato
l'andamento della secrezione di anticorpi, che durante la fase primaria sono prevalentemente IgM e nella secondaria prevalentemente
IgG. La plasmacellula e invece il linfocita B maturo per la produzione e secrezione degli anticorpi, che, in seguito all'azione delle
linfochine sulla ricombinazione del DNA, comprenderanno anche gli
anticorpi secondari IgA, IgE, IgG; nessun cambiamento avverra nel
segmento relativo alla regione variabile.
Inoltre, poiche ogni cellula attivata produce anticorpi appartenenti
ad una delle possibili classi, e il tipo di classe corrisponde ad una
27
Figura 1.8: Andamento temporale della risposta immunitaria
28
Figura 1.9: Andamento temporale della produzione di immunoglobuline
29
risposta immunitaria ad un tipo specico di elemento patogeno, e
poiche la ricombinazione e guidata dalle linfochine, ne segue che
queste vengono prodotte in funzione del tipo di patogenicita.
La vita di una plasmacellula e di alcuni giorni.
1.7 I Macrofagi
Sono cellule che si trovano in tutti i tessuti, e nella circolazione
sanguigna con il nome di monociti; generalmente sono le prime cellule che incontrano una sostanza estranea, e, senza alcuna specicita, la inglobano, cos come fanno per i detriti cellulari, per poi
degradarli con l'ausilio di enzimi idrolitici e attacchi ossidanti. I
peptidi risultanti dalle proteine degradate sono legate alle proteine
codicate dall'MHC-II (vedi oltre) che li trasportano n sulla supercie cellulare, dove rimangono in mostra perche i linfociti Th possano riconoscerli. Se i peptidi risultano da proteine del "se", ossia
dell'organismo stesso, essi saranno ignorati dai Th, che, al contrario,
potranno riconoscere quelli provenienti dalle proteine del "nonse",
attivandosi maturando e secernendo linfochine.
1.8 Il Linfocita T
Queste cellule sono in grado di legarsi agli antigeni solo se questi sono
ancorati alla supercie di un'altra cellula, ossia in una interazione
cellula a cellula, ma non secernono anticorpi; infatti utilizzano per
il riconoscimento delle molecole di supercie che ne costituiscono il
recettore, e che sono costituite di due catena che nella maggioranza
dei casi sono due glicoproteine chiamate e , ognuna divisa in due
domini, uno variabile e l'altro costante. Altre due catene meno frequenti sono chiamate e .
I geni che codicano per queste catene hanno conformazione analoga
a quella dei geni per le catene H ed L degli anticorpi, con geni V, J,
30
D, sequenze di eptameri e nonameri, e anche in questo caso intervengono processi di trascrizione e splicing per ottenere la proteina
richiesta; anche qui sono interessati cromosomi dierenti per , , e
, mentre i geni di si mescolano a quelli di .
Lo sviluppo del recettore ha luogo nel timo, dove, dopo il riarrangiamento genico delle catene e , viene ancorato all'esterno della
cellula, e sottoposto a due processi di selezione che permetteranno
alla cellula in uscita dal timo di riconoscere i soli peptidi del nonse
solo se in associazione con quelli specici dell' MHC. All'uscita dal
timo le cellule T non saranno piu soggette a ricombinazione somatica. La selezione, positiva, che avviene nel timo tende ad eliminare
tutti i linfociti T recanti recettori non in grado di riconoscere sucientemente bene le proteine codicate dall'MHC caratteristiche di
ciascun individuo; viceversa la selezione negativa e quella esercitata
uccidendo tutte le cellule T con recettori ad altissima anita sia per
i polipeptidi codicati dall'MHC che per quelli del se.
La necessita, per i recettori dei linfociti T, di riconoscere l'antigene
se appaiato in un complesso ad una struttura proteica codicata
dai geni MHC, e l'inabilita al riconoscimento e del peptide MHC e
dell'antigene separatamente, e detto riconoscimento congiunto.
I geni MHC sono di classe I se il recettore e ancorato ad un linfocita
citotossico e di classe II se appartiene ad un linfocita Th.
Il linfocita presente nel timo, timocita, una volta espulso verso i
tessuti periferici e ancora in una fase di immaturita, ovvero non e
ancora in grado di ingrossarsi, dividersi e produrre linfochine, e per
questa ragione e ancora chiamato precursore; la maturazione e una
conseguenza dell'incontro e del riconoscimento di un antigene. In
realta vi sono piu tipi di linfociti T, ognuno con funzioni speciche:
il linfocita T citotossico o CTL o killer, il linfocita T helper o Th, il
linfocita T soppressore o Ts, il linfocita T memoria.
Il linfocita T citotossico riconosce ed uccide le cellule che recano sulla
supercie l'antigene in complesso con un polipeptide di MHC-I; la
31
fase di riconoscimento, come detto, e svolta da un precursore che poi
si clona in cellule killer, ove i cloni sono cellule geneticamente identiche alla cellula che li ha originati. La cellula recante l'antigene e
distrutta in seguito all'azione di proteine, secrete dal CTL, in grado
di formare canali ionici non specici nella sua membrana plasmatica,
depolarizzandola e distruggendone cos l'equilibrio ionico e osmotico.
Produce anche linfochine e presenta sulla supercie dei marcatori
chiamati CD8, che si pensa siano attivamente coinvolti nel complesso MHC-I-antigene-recettoreCTL perche il CTL possa portare a
buon ne il proprio compito.
Il linfocita T helper riconosce i prodotti della degradazione dell'antigene
ad opera di macrofagi e cellule B, che li espongono sulla propria supercie in complesso con polipeptidi di MHC-II, e di conseguenza secerne linfochine per stimolare le altre cellule coinvolte nella risposta
immunitaria, quali CTL, e macrofagi, e la produzione di anticorpi
da parte dei linfociti B. La fase di riconoscimento, sempre ad opera
di un precursore, delle molecole presenti su un macrofago provoca
l'attivazione del linfocita, che quindi si clona e, maturando, secerne
interleuchina 2, ( IL-2 ), che serve all'autostimolazione per crescita
autocrina. I tanti Th cos prodotti recano tutti recettori per un
medesimo antigene, che comparira, come prodotto della degradazione
dello stesso antigene, sui linfociti B che vi sono entrati in contatto,
in modo che i due linfociti possano legarsi e la risposta immunitaria
proseguire . I Th recano sulla supercie dei marcatori tipici chiamati CD4 che sono proteine di fondamentale importanza, poiche e
stato constatato che la loro assenza puo compromettere la risposta
all'antigene; questo fa naturalmente pensare ad un ruolo attivo nel
complesso MHC-II-antigene-recettore Th. Si suppone inoltre che
CD4 e CD8 siano presenti sul timocita contemporaneamente, e che
siano soggetti ad una sorta di selezione facente s che solo uno di
essi si attivi.
Il linfocita soppressore inibisce l'attivita delle cellule B stimolate
32
dalle cellule Th, fornendo un meccanismo di retroazione negativa
per autolimitare la risposta immunitaria.
Il linfocita T memoria conserva traccia dell'incontro con l'antigene
attraverso il proprio recettore per l'immunocomplesso epitopo-MHC.
1.9 Le Linfochine
Sono dei peptidi, detti anche interleuchine, che stimolano la crescita
e la maturazione delle cellule B e T. Appartengono alla piu vasta
classe delle citochine che oltre ad esse comprendono le monochine; di
queste l'IL-1 ( e ) svolge un ruolo nell'azione immunitaria. Ciascuna intrleuchina puo ricoprire piu ruoli e piu linfochine possono
esercitarne il medesimo; la piu nota e l'IL-2 detta anche fattore
di crescita dei Th, poiche ne stimola la crescita autocrina. Infatti
qualora questi venissero attivati dalla combinazione del proprio recettore con il complesso MHC-antigene, un recettore per l'IL-2 comparirebbe sulla loro supercie, mentre le stesse interleuchine verrebbero contemporaneamente secrete. La comparsa di questi recettori
solo in seguito a stimolazione del recettore per l'immunocomplesso
permette di conservare la specicita dell'espansione clonale, mentre
l'interazione dell'IL-2 con il proprio recettore comporta la proliferazione dei linfociti T; quando lo stimolo antigenico viene meno i T
perdono questi recettori per l'IL-2 che di conseguenza diminuisce in
quantita no ad essere non piu evidenziabile. Una seconda esposizione all'antigene induce una risposta delle linfochine molto piu
rapida rispetto alla precedente.
Qualche esempio delle possibili funzioni delle interleuchine sono dati
qui di seguito, citando anche l'IL-1:
IL-1 : stimola la sintesi delle proteine della fase acuta e la produzione di un pirogeno endogeno; e un cofattore nei processi di
attivazione linfocitaria;
IL-2 : stimola la crescita delle cellule T e la secrezione di anticorpi
33
dalle cellule B;
Interferone : attiva i macrofagi;
IL-4 : attiva le cellule B ed i macrofagi, stimola la crescita di T e
induce la ricombinazione in o ;
1
IL-3 : stimola il dierenziamento delle cellule sanguigne;
GM-CSF : stimola crescita e dierenziazione di granulociti e macrofagi;
IL-6 : stimola la secrezione di anticorpi da parte delle cellule B;
IL-7 : stimola la crescita delle cellule pre-B;
IL-5 : Induce la ricombinazione del DNA per passare alla produzione
di .
1.10 I Geni MHC
Questi geni, tra i piu potenti fra i geni di istocompatibilita che condizionano il rigetto in caso di trapianti, nella loro globalita sono
specici per ciascun individuo della specie, con alcune somiglianze
fra familiari stretti. Le proteine codicate dai geni MHC presentano un sito nel quale si ssano i peptidi che provengono dalla
degradazione dell'antigene, e sono di due diversi tipi in corrispondenza delle due classi di geni, MHC-I ed MHC-II.
Il gene appartenente alla classe MHC-I, detto HLA da Human Leukocyte Antigens, codica la proteina, che permette l'identicazione del
se da parte dei CTL, cosituita di due catene, di cui una costante e
molto piccola chiamata microglobulina , e l'altra altamente variabile, polimorca; sono proteine presenti sulla supercie della maggior parte delle cellule, proprio perche costituiscono il bersaglio dei
T citotossici deputati al rigetto. Il peptide che si ssa all'MHC-I
proviene da proteine intracellulari come ad esempio quelle virali, da
cui segue che i virus sono bersaglio dei CTL. La proteina codicata
dai geni MHC-II e una doppia catena in cui, diversamente dalla
34
precedente, i due polipeptidi sono di uguale lunghezza ed entrambi
polimorci; si rinviene soprattutto sulla supercie dei macrofagi,
delle cellule dendritiche degli organi linfoidi e dei linfociti B. Il peptide che si ssa alla molecola codicata dall'MHC-II proviene da
proteine extracellulari, come ad esempio quelle ottenute dai batteri,
che in questo modo sono bersaglio dei Th.
1.11 Il Sistema Complemento
E un complesso enzimatico che si attiva dopo il riconoscimento, da
parte di un anticorpo, di un antigene cellulare, come puo essere
quello di un batterio; lo scopo e quello di annientare tale cellula
riuscendosi a ssare sulla sua supercie grazie proprio alla presenza
dell'immunoglobulina, e innescando poi una successione di avvenimenti che portano alla completa distruzione cellulare.
Oltre alla funzione protettrice che esplica per l'organismo quando
agisce contro cellule estranee, esplica anche un ruolo negativo quando
assale le cellule dello stesso organismo, come avviene, con l'alterazione
dei tessuti, nel corso delle reazioni allergiche. I requisiti che deve
soddisfare sono:
1. deve avere un'unita di riconoscimento in modo da poter rispondere alle molecole dell'anticorpo agente sull'antigene;
2. deve avere recettori per la supercie della cellula estranea;
3. eve essere attivo per un tempo molto breve cos da poter denneggiare solo le cellule che lo necessitino.
Le proteine che lo costituiscono sono undici, indicate con: C1q, C1r,
C1s, C2, C3, C4, C5, C6, C7, C8, C9, di cui le C1* costituiscono
un'unita chiamata C1. L'azione nei confronti della cellula da eliminare si compone di tre fasi: riconoscimento, attivazione enzimatica,
attacco.
Riconoscimento : l'unita di riconoscimento e C1q che, combinandosi
con un segmento di immunoglobulina che lega l'antigene, fa s
35
che C1r faccia da tramite per l'attivazione di un enzima posto
su C1s , ove il trattino indica appunto l'attivazione enzimatica.
Le immunoglobuline in gioco sono solo IgM e alcune IgG, poiche
e suciente una sola molecola di IgM per legare C1q, ma ne
necessitano due, fra le quali C1q fa da ponte, di IgG, ed e
dunque ovvio che quest'ultimo sia il caso meno frequente;
Attivazione enzimatica : interessa i fattori C2, C3, C4, che si attivano grazie a C1s . Esso induce infatti la divisione di C4 in
due frammenti, uno grande, C4b, ed uno piccolo, C4a. Il primo
possiede un sito attivo per il legame ad un recettore della membrana cellullare ma dalla vita breve, cos che solo pochi dei C4b,
prodotti per eetto di un unico C1s , siano in grado di unirsi
alla cellula, mentre gli altri si inattivano; questo permette di
non danneggiare eventuali cellule che si trovassero nei pressi e
che non dovessero subire tale infausta sorte. I frammenti C4b
adsorbono i fattori C2, ma solo uno dei due frammenti in cui
si scinde C2 ad opera di C1s dopo l'adsorbimento, C2a, gli
rimane legato. Il complesso C4b,2a cos formatosi e di fatto
un enzima e da questo momento e questo complesso che prosegue autonomamente rispetto al gruppo C1-anticorpo. Come
enzima C4b,2a si combina con C3 e lo separa in due frammenti di cui il piu grande, C3b, rimane legato, e sorte analoga
subisce C5 con il proprio frammento C5b, dal momento che e
un enzima anche il complesso C4b,2a,3b . Tutti questi comlessi enzimatici sono tuttavia poco stabili, con emivite di poche
minuti a temperatira ambiente, cosicche l'intervallo di tempo
in cui ultimare l'aggregazione dei componenti del complemento
e piuttosto breve;
Attacco : la fase di attacco ha inizio con C5b legato, e prosegue con
il legame di C6 e C7 e la separazione del complesso C5b,6,7
dal C4b,2a,3b ; dopo questa divisione il complesso C5b,6,7 si
sposta su di un altro sito cellulare dove C8 si lega alla subunita
36
C5b del complesso e C9 a C8. Gia l'aggiunta di C8 provoca la
disgregazione della cellula, ed in piu C9 ne aumenta notevolmente la velocita. Cio avviene perche la disposizione dei costituenti del complemento sul sito d'attacco e tale da formarvi
un piccolo foro, circondato dai C5b, C6, C7, C8, attraverso il
quale possono entrare gli ioni e con essi l'acqua per un processo
osmotico. L'aggiunta di C9 aumenta le dimensioni del foro
permettendo un ingresso piu rapido di ioni e acqua, no allo
scoppio della cellula. Questo eetto, documentato come "effetto Donnan", consiste nel passaggio di H2O e sale, posti da
un lato di una membrana semipermeabile, ossia attraversabile
da particelle di piccole dimensioni ma non da grandi molecole,
verso l'altro lato della membrana in cui e presente una soluzione
di H2O, sale e proteine: la membrana cellulare normalmente
non e semipermeabile, ma si comporta come tale per eetto del
Sistema Complemento.
1.12 La Selezione Clonale
E il meccanismo con cui, per quanto possa sembrare paradossale,
l'antigene sceglie, tra i tanti anticorpi che incontra nell'organismo
in cui e penetrato, quello che piu gli si adatta e che quindi meglio
lo neutralizza. Dunque si parla di selezione perche l'antigene seleziona l'anticorpo piu appropriato fra tutte le molecole di anticorpo
presenti, ancor prima della sua comparsa, sulla supercie delle cellule B. L'incontro antigene anticorpo stimola inoltre la cellula B a
riprodursi clonandosi, in modo che le immunoglobuline prodotte da
ognuna delle cellule glie siano identiche, con il proprio paratopo, a
quella della cellula originaria: da qui il termine clonale. Nel caso in
cui l'antigene fosse appartenuto ad una proteina dello stesso organismo la sorte della cellula B sarebbe stata la paralisi. I presupposti
della teoria sono dunque:
37
1. il corpo elabora continuamente linfociti B che presentano immunoglobuline di supercie;
2. tutte le immunoglobuline sulla supercie di ciascuna cellula
hanno medesima specicita di legame;
3. per qualsiasi determinante antigenico solo un piccolo sottoinsieme dell'intero gruppo di cellule B avra un anticorpo di supercie con cui legarlo.
Il processo si sviluppa in due fasi, di cui la prima e indipendente
dall'antigene, mentre la seconda vi dipende strettamente.
Durante la prima fase di selezione e indispensabile la stimolazione
da parte delle cellule Th perche B si trasformi in plasmacellula dopo
l'incontro con l'antigene, e non si paralizzi. La seconda fase di selezione prevede che le cellule B che hanno incontrato l'antigene estraneo crescano, si dividano e secernino anticorpi, e quindi si clonino
dopo essersi trasformate in plasmacellule o rimangano allo stato di
cellule memoria.
Una maggiore anita epitopo-paratopo fa s che la stimolazione
della cellula recante quel preciso determinante anticorpale sia piu
forte di quella ottenibile con anita minori, e dunque che la probabilita che detta cellula inneschi il proprio ciclo di riproduzione e
secrezione anticorpale sia piu alta rispetto e quella delle altre. Cio
comporta un aumento del numero di anticorpi ad alta specicita, e,
con essi, dei legami ad alta anita con gli antigeni del medesimo
tipo. Per di piu, durante la fase di riproduzione, nei segmenti di
DNA corrispondenti alle zone ipervariabili degli anticorpi, a causa
della estrema instabilita dei geni, ha luogo un elevato numero di mutazioni, con lo scopo di ottenere sagomature nella regione omologa
della catena immunoglobulinica che si combinino sempre meglio con
l'antigene.
Potremmo considerare qust'ultima come la regolazione ne nella
ricerca della migliore comlementarita. Pertanto questo e un meccanismo in cui la probabilita che gli anticorpi piu ani aumentino
38
di numero continua a crescere con la loro anita, incrementando in
tale modo la precisione dell'azione immunitaria.
Componendo tutti gli elementi descritti nora, emerge abbastanza
compiutamente il disegno del meccanismo immunitario, almeno nei
suoi tratti piu generali, ma puo essere utile darne un quadro d'insieme
riassuntivo.
1.13 Il Ciclo della Risposta Immunitaria
La risposta immunitaria ha inizio quando l'antigene viene a diretto contatto con svariate cellule dell'organismo come: le cellule
bersaglio, cioe quelle cellule mirate in modo specico da un determinato virus; i macrofagi ed altre APC, cioe cellule presentanti
l'antigene; i linfociti B con un anticorpo ane. In seguito sulla
supercie di queste cellule compaiono le molecole risultanti dalla
degradazione degli antigeni precedentemente inglobati, accoppiate a
molecole codicate dai geni MHC.
Se una di tale cellule e un macrogafo, molecole di origine antigenica vengono esposte sulla sua supercie unitamente a peptidi
di MHC di classe II per poter essere individuate da un Th con recettore ane. A contatto avvenuto ha inizio la secrezione di interleuchine da parte del linfocita Th per autostimolarsi alla crescita
e prepararsi alla moltiplicazione cellulare, e contemporaneamente
per sollecitare il macrofago alla emissione di ulteriori linfochine che
coadiuvino quelle da lui prodotte. La quantita di recettori per le
interleuchine cresce all'aumentare delle concentrazioni di queste e
con essa l'entita della stimolazione. Si ha pero un altro eetto conseguente alla loro liberazione che consiste nella stimolazione delle
cellule ad esse sensibili che si trovassero nei dintorni, dando origine non piu ad una stimolazione specica ma cosiddetta parzialmente non specica, in quanto mancante del contatto diretto con
l'antigene. E dunque, quando l'antigene e in piccole quantita la
specita della risposta e alta, rimanendo circoscritta alle sole cellule
39
che sono state in grado di stabilirvi un contatto diretto; viceversa
a grandi quantita di antigene introdotto nell'organismo corrisponde
uno stimolo ingente, a cui segue una grande concentrazione di interleuchine che, diondendo, riescono a raggiungere anche cellule che
tale antigene non l'hanno incontrato. Questa stimolazione anche
se non specica porta comunque tutte queste cellule a riprodursi,
cos che la loro quantita nella circolazione vascolare aumenti considerevolmente insieme alle dimensioni di linfonodi e milza. Tra le
cellule stimolate dalle linfochine vi sono, oltre a macrofagi e linfociti
T, anche i linfociti B, e dunque, se lo stimolo e non specico veranno secreti anche molti anticorpi a bassa specicita. Cio avviene
con lo scopo di creare reazioni crociate fra tutti gli anticorpi presenti,
poiche, essendo l'incontro con un anticorpo specico piuttosto rara,
nel caso di un ingente quantita di antigeni il sistema reagisce mettendo in campo tutte le proprie forze, nell'intento che tanti eventi
concomitanti, anche se non i migliori auspicabili, abbiano un eetto
complessivo soddisfacente.
Tornando al meccanismo di risposta specica, occorre che il linfocita
B, per poter essere stimolato dalle interleuchine, si trovi a breve distanza dal linfocita Th che le produce e questo puo avvenire in due
casi: il primo e quello in cui B si lega ad un complesso antigeneMHC-I posto sul medesimo macrofago occupato da Th, situazione
chiamata ironicamente "tre in un letto", ed il secondo quando il linfocita TH si lega non al macrofago ma direttamente al linfocita B
che, avendo precedentemente incontrato l'antigene libero, ne mostra
frammenti sulla sua supercie in unione con peptidi di classe MHCII. In seguito alla stimolazione delle linfochine, il linfocita B matura
trasformandosi in blasto, e quindi si clona e secerne anticorpi. Il
clone puo divenire plasmacellula matura, con l'unico compito di produrre ingenti quantita di anticorpi, oppure divenire cellula memoria,
che, dopo la fase iniziale di secrezione, si arresta conservando i recettori di membrana e l'aspetto simile a quello di un linfocita vergine.
40
Da cosa dipenda tale dierenziazione non e ancora noto.
Nel caso in cui il linfocita B incontrato dal linfocita Th sia una
di tali cellule memoria, gli anticorpi secreti saranno gia ad elevata
specicita; se poi si considera che trovare un paratopo ane in assenza di tali cellule e un evento raro, e che, viceversa, esso diviene
subito piu probabile quando un certo numero di esse si genera e
rimane in circolo, si capisce perche la risposta secondaria sia maggiormente rapida ed ecace rispetto alla primaria. Gli anticorpi
liberi in soluzione ed i T citotossici completano l'opera di annientamento dell'intruso, i primi innescando il meccanismo del Sistema
Complemento, i secondi legandosi al complesso antigene-peptide di
classe MHC-I mostrato da una qualsiasi APC e quindi secernendo
i fattori litici destinati alla lisi della sua membrana plasmatica. Se
il CTL si lega ad una APC a cui e contemporaneamenta legato
un linfocita Th, viene stimolato alla crescita ed alla proliferazione
dalla secrezione di interleuchine di questi. In questo modo anch'essi
possono moltiplicarsi e tramandare il proprio recettore ad una discendenza sempre piu numerosa con l'avanzare delle generazioni.
L'aspetto negativo di questo complesso sistema di difesa emerge
quando si tenta di innestare un organo o un tessuto su di un altro
essere della stessa specie. Infatti puo avvenire che un peptide della
classe MHC dell'uno sia identicato come un complesso antigeneMHCproprio dall'altro, innescando la risposta immunitaria sia dei
T citotossici soli che di entrambi, Th e CTL coalizzati, con la conseguente distruzione delle cellule estranee. Ma d'altronde al sistema
immunitario, nel corso dell'evoluzione, non e mai stata fatta richiesta
di una simile tolleranza, dal momento che i trapianti, se si eccettua
il caso della gravidanza, non e un fenomeno presente in natura.
41
Capitolo 2
Algoritmi Genetici
Gli algoritmi genetici (GA) [Hol75, Gol89] sono algoritmi di ricerca
che, mimando alcuni meccanismi biologici fondamentali, quali il principio di selezione naturale, il crossing-over e la mutazione genetica, si propongono da un lato, come mezzo utilizzabile per simulazioni di sistemi
biologici o di vita articiale, e dall'altro come strumenti di ricerca
dei punti di estremo nello spazio delle soluzioni di un qualsivoglia
problema.
Il loro uso necessita di un processo preliminare di astrazione delle
proprieta degli oggetti che si devono trattare, sia che esse siano esprimibili qualitativamente, sia che lo siano quantitativamente, per
ottenerne una rappresentazione sottoforma di stringhe codicate.
Queste vengono trattate come se fossero individui geneticamente
caratterizzati, facenti parte di una popolazione di cui si osserva
l'evoluzione nel corso del tempo, le generazioni. A questa evoluzione
contribuiscono il rimescolamento genico, con il proposito di originare
nuovi individui per la generazione successiva, la mutazione e quindi
la pressione evolutiva attraverso il processo di selezione, che ne
conserva tendenzialmente quelli mostratisi piu adatti all'ambiente.
Tutti questi meccanismi coinvolti nei processi evolutivi presentano
eventi di tipo casuale.
Con una terminologia piu orientata all'algoritmica si possono descrivere i GA come processi di apprendimento collettivo all'interno
42
di una popolazione di individui, ciascuno dei quali rappresenta un
punto nello spazio delle soluzioni potenziali al problema posto. La
popolazione, arbitrariamente inizializzata, e che evolve verso regioni
sempre migliori dello spazio di ricerca per azione degli operatori
di selezione, mutazione e crossover, come viene chiamato in questo
ambito il crossing-over, misura la sua capacita adattiva sulla base
dell'informazione fornita dall'ambiente sulla qualita, tness, dei punti
esplorati; gli individui a tness piu elevato saranno favoriti dal processo di selezione per accoppiarsi e riprodursi, dando origine ad
una discendenza recante un patrimonio genetico che sia un misto
di quello parentale.
Una formalizzazione piu rigorosa dell'algoritmo puo essere fornita
utilizzando le seguenti notazioni:
f : G <n ! < ,la funzione obiettivo ovvero quella che sintetizza il
problema in esame e che ci si propone di ottimizzare, con ~x 2 G;
: I ! < ,la funzione di tness con I spazio degli individui ed ~a 2 I ;
I dipende dalla codica scelta e nel caso di codica binaria con
stringhe di lunghezza l, si ha: I = f0; 1gl. E importante sottolineare che f e non sono necessariamente uguali, ma f concorre
al calcolo del valore di unitamente ad elementi come la decodica degli individui e lo scaling (vedi oltre). La codica binaria
e appropriata per l'ottimizzazione di funzioni pseudobooleane,
ma e stata ed e ampliamente utilizzata anche per ricerche a
carattere non pseudobooleano, come nel caso dei problemi di
ottimizzazione di parametri deniti su di uno spazio continuo,
poiche, oltre all'estrema semplicita d'uso, sembrava accettato
che permettesse una piu eciente esplorazione dello spazio delle
soluzioni[Gol89]; in verita tali conclusioni sono state contestate
in seguito da Antonisse[Ant89].
L'uso di parametri continui, deniti sull'insieme I = Xin [ui ; vi] =1
43
<n , necessita di una trasformazione della codica da binaria a
reale che viene realizzata tramite una funzione di decodica
lx i : f0; 1glx ! [ui ; vi ] che applica i segmenti binari di lunghezza
lx agli intervalli reali [ui ; vi ]. Tipicamente tale funzione e della
forma:
Plx
j
lx i (i1 ; : : : ; ilx ) = ui + (vi
1
j =1 j 2 ;
ui ) (2
lx 1)
ove l = nlx e la lunghezza totale dell'individuo, lx determina
l'accuratezza del valore decodicato e puo essere diverso per
ciascun segmento di un individuo, ed ai (i : : : ilx ), con i =
1; : : : ; n;
1
P (t) f~a (t); : : : ;~a (t)g, la popolazione alla generazione t, con
~ai (t) 2 I e 1 e 1 che indicano le dimensioni rispettivamente
1
della popolazione genitrice e della progenie;
ss : (I [ I ) ! I ,l'operatore di selezione, applicato per scegliere
+
la popolazione genitrice della generazione successiva con s indicante un insieme di parametri di controllo; durante il momento
di valutazione, la funzione di tness e calcolata per tutti gli
individui della popolazione.
L'operatore di selezione ricopia nella popolazione successiva le
stringhe scelte in modo casuale ma in accordo con i valori di
tness ricevuti; questo accordo e generalmente proporzionale a
detti valori e puo essere ottenuto costruendo una roulette avente
tanti settori quante sono le stringhe, ognuno proporzionale al
tness della stringa stessa. Tanti giri di ruota quanti debbono
essere gli individui nella popolazione sceglieranno i candidati
alla riproduzione.
cc : I ! I ,l'operatore di crossover che puo essere controllato da
parametri addizionali indicati con c.
L'operatore di crossover agisce sulle stringhe destinate alla riproduzione accoppiandole casualmente e scegliendo per ciascuna
coppia, sempre in modo casuale, un punto di taglio rispetto
44
al quale scambiare, fra i componenti la coppia, una delle sottostringhe corrispondenti. I punti di crossover possono essere
anche piu di uno, ma in questo caso si esegue una scelta casuale
del primo segmento da scambiare, proseguendo poi scambiando
segmenti alterni e considerando le stringhe chiuse agli estremi e
questi come un tutt'uno se il numero di tagli deciso fosse pari.
mm : I ! I ,l'operatore di mutazione controllato dai parametri m .
L'operatore di mutazione esegue una scelta casuale delle stringhe
di cui modica, sempre casualmente e con modalita dipendenti
dalla codica scelta, uno degli elementi costituenti; nel caso
della codica binaria cio si risolve nel tramutare 1 in 0 e viceversa. L'importante funzione di questo operatore e di recuperare
eventuali stringhe potenzialmente importanti prematuramente
tralasciate durante l'esplorazione dello spazio di ricerca, e di facilitare l'evasione da una regione in cui la ricerca ristagni senza
che siano stati raggiunti i risultati ottimali.
Sia la mutazione che il crossover possono essere ridotti ad operatori locali: m0m : I ! I ed c0c : I ! I , che generano un solo
individuo.
ee : I ! fvero; falsog ,il criterio di termine in base al quale decidere
quando ultimare il ciclo algoritmico. Anche in questo caso e
rappresenta un insieme di parametri addizionali.
Questo criterio e necessario per decidere quando interrompere
il processo evolutivo giudicando se le regioni individuate durante l'indagine siano o meno quelle coincidenti con lo scopo
prepostosi.
Possiamo riassumere con passi logici il meccanismo algoritmico come
segue:
45
t := 0;
inizializza P (0) := f~a1 (0); : : : ;~a (0)g 2 I ;
valuta P (0) : f(~a1 (0)); : : : ; (~a (0))g;
while (ee (P (t))) 6= vero) do
seleziona: P 0 (t) := ss (P (t));
crossover: P 00 (t) := cc (P 0 (t));
muta: P (t + 1) := mm (P 00 (t));
valuta P (t + 1) : f(~a1 (t + 1); : : : ; (~a (t + 1))g;
t := t + 1;
endwhile.
Molte variazioni ed aggiunte sono state fatte a questo algoritmo di
base, chiamato anche GA semplice, sempre ispirandosi a meccanismi di variabilita biologica e con alterni risultati; sono reperibili
in letteratura[Gol89, Gre87a, Sch89, BB91], ma non ne sara fatto
cenno dal momento che non ne e stato fatto uso. La tabella 2.1
riassume sinteticamente quale signicato sia da attribuire ad alcuni
termini di origine biologica comunemente impiegati:
Tabella 2.1: Termini biologici e termini algoritmici
Signicato
BIOLOGICO
ALGORITMICO
cromosoma
stringa
gene
caratteristica
allele
valore della caratteristica
loco
posizione nella stringa
genotipo
struttura
fenotipo
struttura decodicata
Alcune caratteristiche salienti del GA vanno sottolineate perche
se ne comprenda la potenza ed il sempre piu ampio utilizzo in
molteplici settori d'indagine.
La ricerca procede:
46
1. da popolazioni di punti e non da un unico punto, il che comporta un'indagine svolta parallelamente in piu regioni dello
spazio, minimizzando la possibilita di riconoscere in un estremo
locale un estremo assoluto.
2. facendo uso di \informazione retribuita", la funzione obiettivo,
e non sulla base di ausili matematici; e questo un aspetto estremamente importante, sul quale si fonda gran parte della robustezza del GA, e della sua essibilita legata all'universalita
della metodica, permettendo di arancarsi da tutte quelle condizioni di idealita necessarie all'applicazione del calcolo analitico,
quali ad esempio continuita e derivabilita, che raramente si
riscontrano durante l'esame dei problemi reali.
3. con regole probabilistiche di transizione, che non comportano
aatto una ricerca casuale di punti nello spazio da esplorare,
ma bens che agiscono da guida in regioni di esso che si siano
dimostrate promettenti.
Un esempio semplice puo chiarire molto bene quanto detto nora.
Si voglia trovare il massimo della funzione f (x) = x , con x 2
[0; 31], codicando x con una stringa binaria di 5 bit ed assumendo
come funzione di tness la funzione stessa; le tabelle 2.2 e 2.3 riassumono tutte le quantita coinvolte nel processo di calcolo del GA
nel passare da una generazione iniziale a quella successiva; l'eetto
dell'operatore di mutazione, ininuente con un numero cos basso di
geni, e stato trascurato.
Si noti che in un solo passaggio il tness medio e passato da 293 a
439, ed il tness massimo da 576 a 729 e che cio e avvenuto grazie al
rimescolamento di due stringhe recanti, rispettivamente, le sequenze
11*** e ***11, da cui e derivata la stringa 11011 di tness quasi ottimale.
Un cenno, seppur breve, e inne necessario a quell'insieme di tecniche studiate per ovviare ad alcuni inconvenienti che, in relazione
2
47
Tabella 2.2: Prima fase: selezione
Identicativo Popolazione
della Stringa
Iniziale
x
f (x)
1
2
3
4
Totale
Media f
Massimo
13
24
8
19
169
576
64
361
1170
293
576
01101
11000
01000
10011
Prob. Selezione Quantita Attesa Quantita Selezionata
fi )
(P
( ffi )
con Roulette
fj
0.14
0.49
0.06
0.31
1.00
0.25
0.49
0.58
1.97
0.22
1.23
4.00
1.00
1.97
1
2
0
1
4
1
2
Tabella 2.3: Seconda fase: crossover
Identicativo Popolazione
Accoppiamento
Sito di Crossover Discendenza x f (x)
della Stringa Successiva (Selezione Casuale) (Selezione Casuale)
1
0110-1
2
4
01100
12 144
2
1100-0
1
4
11001
25 625
2
11-000
4
2
11011
27 729
4
10-011
3
2
10000
16 256
Totale
1754
Media f
439
Massimo
729
alla funzione di tness, possono in vari modi ostacolare la convergenza, rimandando alla bibliograa per ulteriori approfondimenti
[Gol89, BBM94]. Quando il calcolo della funzione di tness si dimostra complesso e magari lento, puo essere opportuno sostituire
alla funzione di tness una sua valutazione approssimata, nella speranza di sopperire alla minor precisione con la numerosita delle valutazioni; tecniche dette di tness scaling, windowing e ranking si propongono di modicare la funzione di tness in modo tale da comprimere
o amplicare le dierenze fra i valori che essa assume nei vari punti e
48
si adottano, rispettivamente, qualora l'algoritmo converga prematuramente in un ottimo locale, e quando la convergenza si mostri
particolarmente lenta. Il primo caso puo presentarsi quando ci sia
uno squilibrio iniziale di tness in favore di un individuo, cos che,
in forza della limitatezza della popolazione, che non consente una
ricerca parallela sull'intero spazio ma solo su una parte limitata di
esso, l'esplorazione si sposti in regioni sempre di convergenza ma
non ottimale. Viceversa, la convergenza puo risultare lenta, sebbene
l'algoritmo abbia centrato la regione contenente il massimo, senza
pero riuscire ad individuarlo perche le dierenze con i valori di tness dei punti che sono prossimi ad esso non sono sucientemente
apprezzabili.
Purtroppo a tutt'oggi non esiste una teoria generale che sia in
grado di giusticare esaustivamente il comportamento degli algoritmi genetici; tuttavia una parziale spiegazione puo essere rintracciata nel teorema dello schema di Holland[Hol75], detto anche Teorema
Fondamentale.
2.1 Il Teorema dello Schema
Viene denito schema una precisa sequenza di alleli in una stringa
che sia identicativa di una classe di stringhe. Cio e ottenuto aggiungendo agli elementi dell'alfabeto scelto il metasimbolo con
il signicato di \qualsiasi elemento appartenente all'alfabeto". Un
semplice esempio facente uso della codica binaria f0 1 g, alla quale
continueremo a riferirci anche in seguito, potrebbe essere lo schema
10 10, che compendia le stringhe 100100; 101100; 100101; 101101.
L'aggiunta del metasimbolo fa in modo che con un alfabeto di cardinalita K esistano (K + 1)l , con l lunghezza della stringa, possibili
schemata contro le K l possibili stringhe; inoltre in una popolazione di
n individui codicati nell'alfabeto f0 1g, esistono tra 2l e n2l schemata
a seconda della diversita delle stringhe, poiche ciascuna di esse appartiene ad una famiglia di 2l schemata, in quanto ogni allele, oltre
49
al proprio valore, comprende anche il metasimbolo .
Denendo poi lunghezza di denizione (H ), con H indicante lo schema,
la distanza fra gli alleli, diversi da , piu esterni dello schema,
e ordine dello schema o(H ) il numero di alleli 0 e 1 presenti in esso,
la comprensione dell'eetto che sugli schemata hanno gli operatori
fondamentali dei GA produrra il teorema cercato.
Siano P (t) la popolazione al tempo t ed m il numero di stringhe rappresentate da H al tempo t cos che m = m(H; t); una stringa ricopiata
in accordo al proprio tness in modo proporzionale si riprodurra con
probabilita pi = Pfi fj , con fi =valore di tness della stringa i, cos
j
che, scegliendo dalla popolazione P (t) un numero n di individui con
ripetizione per generare la discendenza:
Pm(H;t)
nf (a (t))
t)nf (H )
Pn
m(H; t + 1) = j=1Pn f j = m(H;
f
i=1 i
i=1 i
ove aj (t) indica il j-esimo individuo alla generazione t ed f (H ) il valor
medio
del tness delle stringhe contenute in H . Essendo inoltre
Pn
f = in fi il valor medio di tness della popolazione, possiamo concludere che:
=1
m(H; t + 1) = m(H; t) f (H ) ;
f
ovvero che la quantita di stringhe contenute in uno schema H aumentera nella generazione successiva solo se il loro tness medio sara
maggiore del tness medio della popolazione.
Un esempio semplice ma signicativo della potenza di questa formula si ha supponendo che il valor medio del tness di uno schema
in crescita sia del tipo f (H ) = f + cf , che comporta:
m(H; t + 1) = m(H; t)(1 + c) = (1 + c)t+1 m(H; 0)
ovvero una crescita esponenziale di m(H; t) con le generazioni, o decrescita nel caso in cui c fosse negativo.
Ma quanto mostrato e l'eetto del solo operatore di selezione, che
incrementa il numero di elementi a tness maggiore e decrementa
quelli a tness minore, operando parallelamente su molti schemata,
senza pero inserire elementi di novita, come e compito del crossover.
50
Quest'ultimo agisce operando un taglio, all'interno degli estremi denenti la lunghezza di denizione, con una probabilita pd = l H ,
poiche l 1 sono i possibili siti di tutta una stringa in cui il taglio
puo venire a trovarsi, mentre (H ) sono quelli relativi ai loci compresi entro gli estremi su cui e calcolata la (H ); di questa probabilita
occorre tenere conto perche solo se il punto di crossover viene scelto
in corrispondenza di questi siti lo schema, completamente disordinato, non si conserva. Tenendo inoltre conto delle probabilita della
stringa di essere sottoposta a crossover, pc, e di essere accoppiata,
pa , ne risulta una probabilita di sopravvivenza:
(
)
1
ps = 1 pcpa pd 1 pcpd = 1 pc l (H1) :
Da cio segue quindi una stima di m(H; t + 1) che tiene conto contem-
poraneamente sia del crossover che della selezione :
m(H; t + 1) ps m(H; t) f (H ) :
f
Inserendo inne l'apporto dato dalla mutazione, poiche la probabilita di sopravvivenza di tutti gli alleli 0 ed 1 in una stringa e:
(1 pm )o H ' 1 pm o(H ) per pm 1, essendo pm la probabilita di mutazione di un singolo allele 0 o 1, ed essendo questi in quantita pari
a o(H ), si ottiene:
(
)
m(H; t + 1) m(H; t) f (H ) [(1 pc l (H1) )(1 pm o(H ))] )
f
m(H; t + 1) m(H; t) f (H ) [1 pc l (H1) pm o(H )]:
f
E questa la formulazione del Teorema dello Schema, che indica come
gli schemata aventi un tness medio al di sopra di quello medio
della popolazione, piccola lunghezza di denizione e basso ordine, si
propaghino durante le generazioni; se poi vale una legge lineare di
tness, tale propagazione e di tipo esponenziale.
Agli schemata aventi tutte queste caratteristiche viene dato il nome
di building blocks ovvero di mattoni fondamentali, ed il risultato piu
importante che li riguarda concerne il numero di schemata che implicitamente si trattano parallelamente durante l'elaborazione degli
51
n elementi della popolazione e che si dimostra essere n3 . Questo
fenomeno, che Holland chiamo di parallelismo intrinseco, e alla base
della potenza e della robustezza dei GA.
2.2 Le Nicchie Ecologiche
Quello delle nicchie ecologiche e un argomento di estrema rilevanza
ed attualita, poiche ampia le potenzialita di applicazione dei GA
che si sono dimostrati ecaci e robusti nella risoluzione di problemi
di ottimizzazione globale, ma inecaci nel trattare situazioni modellizzabili con funzioni multimodali in cui la conoscenza delle mode
fosse un requisito essenziale.
L'importanza di queste problematiche si constata sicuramente in
ambito biologico, e piu in generale per qualsiasi sistema evolutivo,
che come tale esige, come condizione per la propria perpetuazione,
la capacita di mantenimento di una suciente variabilita fra gli elementi che lo compongono. Tale diversita, in una rappresentazione
del sistema come popolazione di individui, permette infatti, se non
ai singoli, alla popolazione nel suo insieme, molte possibilita di adattamento ad eventuali modiche che intervengano nei fattori ambientali, attingendo a quegli individui di volta in volta piu idonei o
con piu rapide capacita di adattamento.
Proseguendo nell'analogia con i sistemi biologici, parleremo di specie
come dell'insieme degli organismi con caratteristiche comuni, di speciazione come del processo attraverso cui una singola specie si dierenzia in piu sottospecie, ciascuna occupante una precisa nicchia ecologica, ove per nicchia si intende per l'appunto, una regione in grado
di fornire le risorse necessarie al loro sviluppo e mantenimento. Esiste di conseguenza un rapporto strettissimo tra la dierenziazione
ambientale in nicchie e la speciazione, poiche la limitatezza ed il
depauperarsi delle risorse, magari in seguito a sovrappopolazione,
comporta la migrazione verso regioni in grado di orire migliori aspettative di vita.
52
Queste tematiche sono state arontate nell'ambito degli algoritmi
genetici seguendo due approcci dierenti, il primo orientato a modicare la struttura dell'algoritmo, di cui sono esempi: la preselection
di Cavicchio[Cav70], il crowding's scheme di DeJong[DeJ75], il restricted
mating di Booker[Boo82] ed il local mating di Davidor[Dav91], il secondo che introduce una valutazione del tness individuale in modo
tale che esso risulti dipendente, esplicitamente[GR87, Deb89, Gol89,
Mah93, DG89] o implicitamente[SFP93b, FJSP93], dai rimanenti
membri della popolazione; in questo caso si parla di tness condiviso
(o tness sharing).
Se in un GA semplice, ciascun individuo e valutato in accordo ad
una singola funzione di tness scalare che sia indipendente dagli altri
membri della popolazione, possiamo concepirne il compito come una
ottimizzazione della somma di detti tness, cos che la popolazione
ottimale consista interamente di copie dell'individuo migliore; viceversa quando il tness degli individui e soggetto alla loro interazione
reciproca, siamo in presenza di un meccanismo co-evolutivo o coadattativo, e quindi ad obiettivi multipli, che non puo generalmente
essere rappresentato mediante un'unica misura scalare del tness
della popolazione. Osserviamo quindi che, per meglio riprodurre
la dinamica evolutiva di sistemi biologici, che come tali sono coevolutivi e/o co-adattivi, e necessario introdurre un termine di accoppiamento nella valutazione dei tness, in modo implicito od esplicito, come usualmente si ritrova nella modellistica matematica
che fa uso dei sistemi di equazioni dierenziali per lo studio della dinamica delle popolazioni, un esempio per tutti le equazioni di LotkaVolterra per il modello preda-predatore.
2.2.1 Il Fitness Sharing
Il meccanismo di tness condiviso realizza una suddivisione in nicchie diminuendo il valore della funzione obiettivo di un individuo,
ovvero il suo tness non condiviso, in funzione della numerosita degli
53
individui a lui vicini in senso genotipico o fenotipico. Questa distinzione comporta una denizione iniziale di metrica per le stringhe
cromosomiche nel primo caso, e per i parametri decodicati (o punti)
nel secondo caso; poiche le due metriche non necessariamente coincidono, possono risultarne dierenze nell'ecacia dell'algoritmo[DG89].
Quando il meccanismo di condivisione viene realizzato attraverso
una trasformazione esplicita sulla funzione obiettivo, allora si parla
di sharing esplicito, mentre se la condivisione e racchiusa nella espressione funzionale o procedurale della funzione obiettivo, si parla di
sharing implicito. Di quest'ultimo si discutera in seguito, analizzando
il caso particolare trattato in questa ricerca, mentre qui di seguito
si approfondiscono gli aspetti del tness sharing esplicito[DG89,
Deb89].
La funzione di tness condiviso di ciascun individuo e cos denita:
fsh;i = mfi
(2.1)
i
ove:
fi f (i)
rappresenta la funzione obiettivo di un individuo i,
mi =
N
X
j =1
sh(di;j )
rappresenta il conteggio di nicchia per l'individuo i, N la dimensione
della popolazione, ed
8
< 1 ( di;j ) sh se di;j sh
sh
sh(di;j ) = :
0
altrimenti
il valore di condivisione tra gli individui i e j separati da una distanza
di;j ; sh rappresenta il raggio di una sfera centrata sull'individuo i,
ossia il raggio stimato delle nicchie, all'interno delle quali gli individui incidono reciprocamente sui valori di tness; sh determina
54
1
α
α
α
α
α
0.8
= 1/3
= 1/2
= 1
= 2
= 3
0.6
sh(d i,j )
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
d i,j
σsh
Figura 2.1: La funzione di sharing esplicito
l'andamento della legge di potenza e quindi la \forma" della nicchia.
Gli andamenti per alcuni valori si sono riportati in gura 2.1.
Il risultato del procedimento di tness condiviso tende a suddividere
la popolazione sui molteplici picchi, ovvero le nicchie, in proporzione
all'altezza dei picchi stessi.
Questa metodica e stata applicata con successo in parecchi ambiti,
soprattutto monodimensionali, ma sore della impossibilita di svolgere una ricerca completamente cieca, come sarebbe usuale ed auspicabile per i GA, necessitando della conoscenza iniziale di alcuni
parametri fondamentali quali ed .
Vale la pena di ritornare un momento alle relazioni esistenti fra
funzione di tness condiviso e non condiviso e fra le funzioni esprimenti i due diversi tipi di tness sharing, per sottolineare alcune
55
dierenze di una certa importanza che emergono quando si studia il comportamento del GA in relazione al parametro dimensione
della popolazione. Nel caso infatti di una ricerca dell'estremo globale, la funzione obiettivo non introduce alcuna dipendenza dal numero di individui presenti nella popolazione, cos che le variazioni di
questo valore si riettono unicamente sulla qualita delle prestazioni
dell'algoritmo; se esso e infatti troppo piccolo, e elevato il rischio di
convergenza su estremi locali, cos come se e troppo alto, la velocita
di convergenza puo risentirne negativamente, sebbene in questo caso
possa aumentare la precisione dell'individuazione del valore ottimale. In questi casi e dunque auspicabile un'analisi preliminare per
l'individuazione del valore che comporti il migliore compromesso fra
velocita e precisione.
Nei casi di sharing invece, della numerosita della popolazione si tiene
conto, come si e detto, nella funzione di tness, ma con modalita da
non trascurare quando si interpretano i risultati; occorre infatti non
dimenticare che nel caso di sharing esplicito la funzione obiettivo
e sottoposta a trasformazione per ottenerne la funzione di tness,
cos che l'universo dei risultati puo non coincidere con quanto modellizzato; cio non avviene invece nel caso di sharing implicito, in cui
la variazione dei parametri si traduce in una variazione della stessa
pocedura di denizione della funzione obiettivo, e quindi in funzioni
di volta in volta dierenti. Al contrario comunque di quanto avviene
nel caso di ricerca di un estremo globale, al variare dei parametri citati non si hanno modiche delle sole prestazioni, ma sopratutto nel
tipo di soluzioni trovate. Sull'argomento si tornera quando si commenteranno alcuni dei dati ottenuti, e si mostrera come i risultati
non mostrino tanto una dipendenza dal numero di individui nella
popolazione, quanto pittosto dai rapporti tra N , e pe, ove si e indicato con N la dimensione della popolazione, con una quantita
campionata di individui che ha un analogo nel raggio della nicchia
del caso esplicito, e con pe il numero di punti di estremo.
56
2.3 Il Criterio di Termine
A tutt'oggi non sono state provate proprieta formali di convergenza
verso la soluzione ottimale, ne tantomeno leggi, che possano guidare
il ricercatore nella scelta del momento opportuno in cui interrompere
l'evoluzione del sistema esaminato. Per questa ragione si rende necessaria la denizione di un criterio euristico di termine, che generalmente si fonda sul requisito di stabilita delle soluzioni nel corso
delle generazioni o su di un massimo numero di iterazioni possibili dell'algoritmo oppure su di un raggiunto livello di uniformita
all'interno della popolazione; occorre pero sottolineare che nessuno
di essi, per quanto ben concepito, e in grado di garantire che la
soluzione trovata sia realmente quella ottimale.
Un criterio proposto da DeJong[DeJ75], denisce sia la convergenza
di un gene, da intendersi come l'uguaglianza del 95% di tutti i geni
codicanti la medesima caratteristica, che la convergenza della popolazione, ottenuta quando tutti i geni sono giunti a convergenza.
Un ulteriore esempio lo possiamo trovare in Villani[Vil92] che introduce due valori ssati a priori n ed n ed interrompe il proprio
algoritmo quando il tness dell'individuo migliore della generazione
in esame non si discosta per piu di un n % dalla media dei valori
massimi di tness rinvenuti nelle n ultime generazioni.
L'ecacia dei criteri esposti e limitata al settore dell'ottimizzazione
globale, poiche essi non sono adattabili quando si debbano risolvere
problemi con caratteristiche di multimodalita, il cui obiettivo sia
l'indagine in tutti i punti estremali. Se anche infatti si volesse pensare di applicarli in ciascun punto di estremo dello spazio di ricerca,
giudicando la convergenza raggiunta quando fossero per tutti contemporaneamente soddisfatti, rimarrebbe irrisolto il grosso problema della conoscenza a priori del numero di massimi e dell'individua
zione delle sottopopolazioni aerenti a ciascuno di essi su cui eseguire il test. Quando parte di queste conoscenze a priori vengono
1
2
1
2
57
usate gia nell'algoritmo, come nel caso della funzione di tness sharing esplicito, certamente non e ulteriormente dispendioso impiegarle
anche nella costruzione del criterio di termine, ma sarebbe auspicabile arancarsi quanto piu possibile da esse.
Un'approccio nuovo potrebbe essere fondato sull'analisi della stabilita delle clusterizzazioni eettuate nello spazio degli individui,
simultaneamente all'evoluzione del sistema; tale metodo, che puo
risentire della non robustezza associata alle metodiche di clustering,
elimina pero la necessita di conoscenze a priori sul sistema, eventualmente orendo ulteriori informazioni sulla struttura delle nicchie.
58
Capitolo 3
Un Modello Semplicato del
Riconoscimento e della
Diversita Anticorpali
Gli algoritmi genetici permettono di rappresentare il meccanismo
di riconoscimento fra antigeni ed anticorpi attraverso la complementarita delle stringhe codicate; di operare una selezione proporzionale al tness del tipo di quella che si attua in seguito al
riconoscimento, la selezione clonale; di rappresentare con detto tness il grado di complementarita antigene-anticorpo; di operare mutazioni con il rispettivo operatore e inne di creare una continua variabilita nella popolazione di anticorpi attraverso l'uso dell'operatore
di crossover. Dunque essi si prestano molto bene per simulazioni
nell'ambito del sistema immunitario, e, nella modellizzazione realizzata, sono stati usati nella loro formulazione base.
La schematizzazione del meccanismo di riconoscimento del SI usata
qui risulta molto semplicata rispetto alla complessita reale ed in
particolare:
non si e fatta alcuna distinzione tra fenotipo e genotipo, nel
senso che le stringhe binarie di bit, con cui si sono rappresentati
antigeni ed anticorpi, nel loro aspetto codicato sono individuabili come geni, ma agiscono come struttura sterica quando se
59
ne cerca la complementarita ai ni del riconoscimento.
non e stata fatta distinzione fra tipi diversi di recettori posti su
cellule B e T e anticorpi in soluzione
non sono stati tenuti in conto i meccanismi immunitari che si
innescano in seguito al riconoscimento dell'antigene.
Due precisazioni sono necessarie:
1. le stringhe anticorpali non sono ottenute, come avviene realmente, scegliendo casualmente e componendo i frammenti costituenti il gene da un certo numero di librerie geniche, ma
scegliendo, in modo casuale o meno, da un insieme contenente
tutte le possibili stringhe ottenibili da tutte le possibili combinazioni dei frammenti inseriti nelle suddette librerie, il che
comporta solo l'eliminazione di uno stadio intermedio nella
costruzione della stringa, che in un caso e nell'altro deve essere costituita dalla medesima sequenza di bit.
2. l'operatore di crossover e usato come generatore di diversita
all'interno della popolazione ma non ha un riscontro reale in
questo ambito, essendo il crossing-over un meccanismo della
sola riproduzione delle cellule germinali.
Si e in precedenza accennato alla necessita di codicare con stringhe
numeriche gli elementi su cui l'algoritmo genetico deve operare, e
dunque della ricerca della codica e della lunghezza di stringa piu
opportune per il problema in esame; la scelta di una codica binaria
e di una lunghezza di stringa di 64 bit e stata fatta basandosi sulle
seguenti cosiderazioni:
e stato calcolato[Inm78] che il sistema immunitario potrebbe
riconoscere almeno 10 tipi dierenti di antigene;
16
il numero di proteine proprie di un organismo umano, che il SI
deve essere in grado di distinguere dalle proteine estranee, pena
l'autodistruzione, sono 10 ;
5
60
il numero stimato di recettori dierenti sui linfociti B e 10 [BM88],
10
mentre quello dei recettori dei linfociti T e 10 [DB88];
16
il numero stimato di recettori dierenti contemporaneamente
presenti nell'organismo umano e 10 .
7
alcuni autori[PO79] dimostrano che se i 10 dierenti recettori
7
contemporaneamente presenti sono generati casualmente, allora il repertorio e completo, ovvero esiste per ciascun possibile
antigene un anticorpo in grado di riconoscerlo e contrastarlo.
In realta questo valore, qualsiasi esso sia, non puo considerarsi immutato all'interno dell'organismo, poiche il meccanismo
della selezione clonale tende a far prevalere la presenza di quei
recettori che si riscontrano utili per contrastare gli antigeni piu
comuni nell'ambiente in cui l'organismo usualmente vive, ed essendo praticamente stabile il numero delle cellule che possono
occupare contemporaneamente il sistema, questo va a detrimento delle cellule nuove e molto diverse che potrebbero essere
prodotte.
La codica scelta permette: una semplicita d'uso, sia per il calcolo
della complementarita che per il riconoscimento delle stringhe; una
buona riproducibilita della complessita del SI consentendo la rappresentazione di 2 ' 10 individui dierenti, ed inne di tenere
conto della necessita di distinguere tra molecole del self e del nonself
in associazione ad una procedura di tness che attribuisce valori piu
elevati a quantita maggiori di bit riconosciuti , cos da ottimizzare
il numero di stringhe diverse individuabili attraverso la stessa sequenza e di conseguenza diminuire la probabilita di errore.
Lo scopo prepostosi e di comprendere se e sotto quali condizioni sia
possibile utilizzare gli algoritmi genetici per arontare le problematiche inerenti al SI, che nel caso specico signica comprendere il
meccanismo della generazione della diversita e della completezza del
repertorio anticorpale.
La possibilita della individuazione di un numero quasi innito di
64
19
61
possibili antigeni con un numero relativamente basso di possibili
anticorpi, e garantita in virtu delle cosiddette multispecicita e crossreattivita, ove la prima indica la capacita di alcuni anticorpi di riconoscere, con diversa anita, piu antigeni molto diversi fra loro, e la
seconda la capacita di rintracciare schemi comuni in dierenti antigeni, ovvero riconoscerne di non molto dissimili. I due casi sono stati
separati ed arontati con procedure diverse, poiche anche lo scopo
dell'algoritmo usato risultava dierente, dovendo, nel secondo caso,
ottimizzare alla ricerca dell'anticorpo in grado di riconoscere una
sequenza ovunque si presentasse all'interno di una stringa-antigene,
e nel primo, mantenere una certa diversita all'interno della popolazione anticorpale, cosa ottenibile solo con meccanismi di sharing
del tness.
Le ricerche sono state eseguite facendo uso di un programma di
dominio pubblico per l'uso degli algoritmi genetici, ampiamente utilizzato in questo settore ed anche in ricerche analoghe alla presente[FJSP93, SFP93b]: GENEsYs 1.0 di Thomas Back[Bac92], versione
aggiornata di GENESYS 4.5 scritto da J. Grefenstette[Gre87b], su cui
si sono innestate le routine per la determinazione del tness che di
volta in volta si sono rese necessarie ad una personalizzazione d'uso;
tali programmi sono stati scritti in linguaggio C cos come quelli
impiegati per l'elaborazione dei dati ottenuti.
3.1 La Cross-Reattivita: Analisi e Risultati
Per il riconoscimento di sequenze all'interno delle stringhe di antigeni si e fatto uso del seguente algoritmo per la determinazione del
tness di ogni anticorpo:
1. si sceglie dalla popolazione ssata di antigeni, casualmente e
con ripetizione, un campione di numerosita ;
2. per ciascun antigene k presente nel campione viene calcolata la
62
distanza di Hamming dh = djk , ovvero il numero di bit complementari tra l'antigene e il j-esimo anticorpo, con j = 1; : : : ; N ed
N dimensione della popolazione;
3. viene stabilito il tness di ciascun anticorpo j come valore medio
sulle distanze di Hamming calcolate per tutti gli antigeni del
campione .
L'esperienza e stata eseguita per due valori di , 5 e 30, e per ognuno
di essi si sono valutate popolazioni di antigeni contenenti stringhe
con lunghezza di schema 1=2; 1=4; 1=8, ovvero costituite per la meta,
un quarto ed un ottavo della propria lunghezza di una sequenza
denita di bit, s, che e stata scelta tutta di 1; ad esempio la seguente
e la composizione di una popolazione di stringhe di lunghezza di
schema 1=4, ove si e indicato con il simbolo il valore casualmente
scelto fra 0 ed 1:
25% 11******
25% **11****
25% ****11**
25% ******11
La popolazione di anticorpi, inizialmente pseudocasuale, era composta di 200 elementi, quella di antigeni di 400, i valori delle probabilita di crossover e di mutazione sono stati posti a 0.6 e 0.0005
rispettivamente ed inne il numero di generazioni valutate e stato
500. Il criterio di termine adottato si e infatti basato sul numero di
generazioni da considerare per consentire l'individuazione dell'elemento
cercato e la sua perpetuazione, ed a tale scopo tale numero e stato
scelto per essere sucientemente abbondante.
Il valore migliore di tness che una stringa anticorpale potrebbe ottenere e ricavabile osservando che un anticorpo ottimale allo scopo
dovrebbe essere costituito di s = (s=l) l bit esattamente complementari a quelli delle sequenze di schema di un qualsiasi antigene, e
dunque con probabilita 1 di esserlo, e di l s = (1 s=l)l bit qualsiasi
fra 0 ed 1 e dunque aventi probabilita 1/2 di essere complementari;
ne segue che il valore ottimale di tness e:
s
s = l l s:
l
l
[(
)(1) + (1
)(1 2)]
63
=
+
2
La stringa ottimale risultante in tutte le prove e stata quella composta di tutti 0, e, una volta che si sia giunti a convergenza, i valori medi di tness (ciascun valore riportato e mediato su 10 prove
ripetute) rimangono molto stabili intorno al valore teorico, raggiunto
asintoticamente, come si puo vedere dalle gure 3.2 e 3.1, ed inoltre
cio e tanto piu vero quanto piu alto e , ovvero la possibilita per
l'anticorpo di misurare adeguatamente il proprio tness in relazione
all'intera popolazione di antigeni. Inoltre, sebbene i valori di tness
ricevuti a generazioni dierenti da una stessa stringa potessero variare sensibilmente a causa della diversita di campionatura degli antigeni, il GA si e dimostrato piuttosto robusto nella ricerca, anche se
la convergenza risulta piu rapida nel caso di antigeni con lunghezza
di schema maggiore; cio e daltronde spiegabile con l'esistenza di una
minore variabilita nei bit, e quindi fra i valori attribuibili di tness.
La formazione di un individuo crossreattivo come quello trovato e
facilmente giusticata se si pensa che un elemento specico per un
solo o pochi antigeni sarebbe stato presto eliminato in virtu della
particolare procedura di tness.
Dal punto di vista immunitario possiamo dunque concludere che il
SI puo esprimere un anticorpo in grado di individuare schemi comuni anche piccoli fra le molecole costituenti gli antigeni, ma tale
operazione diviene sempre piu ardua con il diminuire delle dimensioni dello schema, cos che non e dicile immaginare l'esistenza di
un probabile limite inferiore per esso.
3.2 La Specicita e la Multispecicita
Con questa seconda serie di esperimenti si entra completamente nel
merito della tematica del tness sharing, poiche essi ricercano proprio le condizioni del sistema che permettono l'esistenza contemporanea di piu massimi, da intendersi come la possibilita da parte
del sistema immunitario di riconoscere antigeni diversi e di generare anticorpi loro antagonisti che li combattano e che persistano
64
Figura 3.1: Miglior tness medio di un anticorpo con popolazioni di antigeni con
lunghezza di schema 1=2; 1=4; 1=8, per = 5 e = 30
65
Figura 3.2: Rapporto fra il miglior tness medio ed il tness teorico di un anticorpo con popolazioni di antigeni con lunghezza di schema 1=2; 1=4; 1=8, per = 5
e = 30; gli errori sperimentali sono stati omessi per una migliore comprensione,
ma risultano sempre molto piu elevati nel caso = 5
66
nell'organismo. La trattazione matematica che segue giustica l'uso
del tness sharing e deduce la formulazione analitica corrispondente
alla procedura algoritmica che sara usata nel corso delle simulazioni,
sottolineandone le caratteristiche di sharing ed evidenziando analogie con il caso di sharing esplicito al ne di utilizzarne alcuni risultati
per l'interpretazione dei dati.
Se una popolazione evolvesse sotto la sola spinta selettiva, conserverebbe nel tempo unicamente gli elementi rivelatisi a piu alto
tness; infatti, indicando con n il numero di individui diversi in una
popolazione di N individui, con Pit la percentuale di individui del tipo
i alla generazione t ed inne con fi il tness assoluto dell'individuo
di tipo i, varrebbe la condizione:
N
X
i=1
Pit = 1
e le percentuali di individui uguali varierebbero nel tempo come:
Pit fi :
Pit+1 = X
n
Pjt fj
j =1
Essendo dunque costante il numero totale di elementi nella popolazione, se ne deduce un aumento di Pit per gli individui che al
tempo t avevano tness alto e di conseguenza un aumento del tness medio, denito come: f t = PNj Pjtfj . Con l'avanzare delle generazioni si arriverebbe ad uno stato stazionario stabile in cui tutti
i costituenti la popolazione avrebbero il medesimo valore di tness,
pari al massimo ottenibile, cos che,indicato con F tale valore, si
avrebbe:
+1
Pi = XPi F
=) 1 =
PJ F
j 2S F
Pj F
X
j 2S ove S e l'insieme dei soli individui i con tness fi = F ; cio dimostra
che lo stato stazionario nale potrebbe essere una qualsiasi combinazione di percentuali di elementi della popolazione. In realta
generalmente interviene il fenomeno noto come drift genetico, secondo
cui, anche in condizioni di tness tutti uguali, uno squilibrio iniziale
67
nel numero di rappresentanti di ciascun individuo, generazione dopo
generazione, fa s che da un certo momento in poi la popolazione
sia interamente composta di individui uguali a quello che era inizialmente il piu numeroso, poiche questo si riproduce con sempre
maggiore probabilita in forza della propria superiorita numerica. Ne
segue che i semplici meccanismi di selezione non sarebbero sucienti
ad ottenere la stabilita di un sistema con elementi dierenziati.
Insoddisfacente sarebbe anche il risultato che si conseguirebbe se ci
si limitasse ad introdurre una funzione di tness in cui questo fosse
condiviso semplicemente fra i soli individui uguali: fi0 = Pfit , poiche
i
se ne ricaverebbe:
t fi
P
t
i
Pi fi
fi
Pit
Pit+1 X
n
n
n
X
X
Pjtfj
Pjt Pfjt
fj
j
j =1
j =1
j =1
0
=
=
=
(3.1)
0
contenente i soli valori di tness assoluto e di conseguenza costante.
Dunque in questo modo si manterrebbero inalterate nel tempo le
percentuali di piu individui, ma non solo di quelli fra questi aventi
le caratteristiche ottimali richieste.
Lo scopo e stato raggiunto, seppur con tutte le implicazioni gia a
suo tempo citate, utilizzando la funzione 2.1, a cui si continuera a
fare riferimento e che fa intervenire non solo la reciproca inuenza
delle stringhe uguali fra loro, ma anche di tutte quelle che vengono
a trovarsi all'interno di una sfera di raggio denito. Il problema da
arontare e dunque quello di capire se il meccanismo di simulazione
che si mettera in atto sara o meno in grado di garantire una appropriata suddivisione in nicchie e la loro stabilita nel tempo.
Denita una funzione M : Antigene Anticorpo ! < che quantichi la
complementarita tra le stringhe, l'algoritmo da usare e riassumibile
nei seguenti punti:
1. un solo antigene e selezionato in modo casuale e con ripetizione
dalla popolazione;
68
2. un campione di dimensione e scelto casualmente senza ripetizione da una popolazione di N anticorpi;
3. ciascun anticorpo del campione viene confrontato con l'antigene
e ne viene calcolato un punteggio in base al grado di complementarita;
4. si determina l'anticorpo in con il piu alto punteggio e nel
caso in cui ve ne siano due o piu che lo abbiano uguale, se ne
stabilisce casualmente uno come prescelto;
5. l'anticorpo con punteggio piu elevato aggiunge questo al proprio
valore di tness;
6. si ripete il procedimento da 1) a 5) per un numero ssato di
cicli.
Il numero di cicli e preso sucientemente alto da poter presupporre
con buona probabilita che tutti gli anticorpi nella popolazione possano confrontarsi con tutti gli antigeni ssati, ed in questo modo
misurare la propria forza con valenza statistica. Il meccanismo di
condivisione del tness e nascosto nelle interrelazioni implicate da
"il migliore di. . . ", che, visto diversamente, costituisce il termine di accoppiamento, ma emerge manifestamente dalla trattazione analitica
della procedura. Questa procede determinando la funzione di tness
atteso attraverso il calcolo della probabilita che per un anticorpo si
verichino tutti gli eventi di cui ai punti da 1) a 5). La metrica
sia denita sulla base della distanza di Hamming dij fra un anticorpo i e l'antigene j , ovvero sul numero di bit dierenti fra i due:
dij = 0 se la complementarita tra antigene ed anticorpo e completa;
dij = l, con l = lunghezza della stringa se la complementarita e nulla;
1 dij (l 1) nei restanti casi di complementarita parziale.
Si indichino inoltre con:
sij il punteggio assegnato all'anticorpo i in seguito alla sua com-
plementarita con l'antigene j ;
69
Nj (m) il numero di anticorpi nella popolazione con distanza m
dall'antigene j ;
j la probabilita di selezione per l'antigene j ;
fi il tness atteso dell'anticorpo i.
Allora, la probabilita che w anticorpi con distanza m dall'antigene
j siano presenti in un campione di dimensione scelto senza ripetizione da una popolazione di N elementi, e data dal valore della
funzione di distribuzione ipergeometrica:
(
p w ; N; Nj m
(
;
(
)) =
!
Nj m
w
)
!
N Nj m
w ; w
!
N
(
)
; ; : : : ; :
= 0 1
Infatti, N e il numero di possibili modi di prendere un campione di
elementi da un insieme di N elementi, ed inoltre, se w elementi con
distanza m dall'antigene j appartengono a , cos che in ve ne siano
( w) con distanza diversa da m, ed N Nj (m) e il numero di individui
con distanza diversa da m, ne segue che: N Nwj (m) rappresenta il
numero dei possibili modi di scegliere un campione, di dimensione
w, di elementi con distanza diversa da m dall'antigene j , e Njwm
il numero dei possibili modi di scegliere un campione, di dimensione
w, di elementi con distanza pari ad m dall'antigene j .
Alcuni casi particolari, che saranno utili in seguito, sono i seguenti:
(
)
1. = 1. In questo caso la probabilita che il campione contenga
un anticorpo a distanza m e:
Nj m ;
p ; N; Nj m
N
e dunque la probabilita che non esista in nemmeno un elemento a distanza m e:
N Nj m
p ; N; Nj m
p ; N; Nj m
N
(1; 1
(0; 1
(
)) = 1
(
(1; 1
70
(
)) =
(
)
)) =
(
)
2. = N . In questo caso:
p w N; N; Nj m
(
;
(
))
=
Nj m
N Nj m
w Nj m w N w N Nj m
=
N Nj m
Nj m
w Nj m w N w w Nj m
(
!(
(
)
(
)! (
(
(
))!
)!(
(
)
(
)!
!(
(
1
se
0
altrimenti
(
=
)!
)
(
)! (
)!(
N w
))!
(
))!
w Nj m
=
(
)
Nel caso in cui si richieda una perfetta complementarita tra antigene ed anticorpo, ovvero valga la condizione s(dij ) 6= 0 () dij = 0,
avendo posto s(dij ) = sp, le condizioni, indipendenti, che devono essere soddisfatte perche l'anticorpo possa ricevere un incremento di
tness sono:
l'elemento j degli antigeni e selezionato con probabilita j ;
l'elemento i degli anticorpi deve appartenere al campione di
dimensione ;
se esistono w anticorpi che perfettamente si adattano all'antigene,
l'anticorpo i deve essere il prescelto e cio si verica con probabilita w1 .
Si ha dunque che la probabilita che, nella sottopopolazione di w elementi, ne esista uno degli Nj (0) con distanza 0 da j , e:
!
p w; Nj ;
(1;
(0) 1)
1
=
=
=
Nj
w
Nj
w
!
(0)
1
1
1
!
(0)
(
w
(0)
1)!
1)!(
(0)
1
w ;
N
j (0)
71
Nj
Nj
Nj
w Nj
(
!(
(0)!
(0)
w
w
)!
+ 1)!
+
)!
mentre p(w; ; N; Nj (0)) rappresenta la probabilita che il campione contenga w elementi, tra gli Nj (0) a distanza zero da j ; si puo quindi
concludere che la probabilita che un elemento della popolazione soddis tutte e tre le condizioni imposte, e quindi riceva un incremento
di tness, e:
j
X
w=1
p w ; N; Nj
(
;
(0))
w p w; Nj ;
1
(1;
(0) 1)
=
=
=
j
X
p w ; N; Nj
;
(0))
potendo w variare da 1 a .
Ne consegue per il tness atteso, dopo un ciclo:
j X
fi N
p w ; N; Nj sp:
j
w=1
Dopo C cicli tale valore sarebbe: Fi = Cfi , ma poiche tale costante
compare per ogni i, la si trascura, identicando il tness su di piu
cicli con quello su di un ciclo solo.
Nel caso piu generale in cui sia richiesta la complementarita parziale
fra le stringhe, vale: dij = m, con m 2 [0; l]; l'antigene e scelto, come
in precedenza, casualmente, con ripetizione e con probabilita j e le
seguenti sono le condizioni perche l'anticorpo riceva un aumento di
tness:
=
(
(0)
;
(0))
1. non vi siano anticorpi nel campione a distanza minore di m
dall'antigene;
2. se w anticorpi nel campione sono tutti a distanza m dall'antigene,
l'anticorpo i deve appartenere all'insieme dei w, e deve essere
considerato il prescelto; quest'ultimo fatto avviene con probabilita w1 .
Queste condizioni, contrariamente al caso precedente, non sono piu
indipendenti, e quindi le probabilita da calcolare saranno probabilita
condizionali: P (E T E ) = P (E =E )P (E ), avendo indicato con E ed
1
2
2
1
72
1
1
w
w Nj (0)
w=1
j X p(w; ; N; N (0))
j
Nj (0) w=1
j (1 p(0; ; N; N (0));
j
Nj (0)
(
1
E2 gli eventi di cui ai punti, rispettivamente, 1) e 2). Dunque:
P E1
(
) =
p ; N; Vj m ;
(0;
(
))
ove Vj (m) = Pmk Nj (k) indica il numero di anticorpi con distanza
1
=0
di Hamming K < m dall'antigene j , con V (0) = 0, mentre per il
calcolo di P (E ) occorrono: p(w; ; N Vj (m); Nj (m)), la probabilita che
w degli Nj (m) anticorpi a distanza m dall'antigene j appartengano al
campione di dimensione e nessuno dei Vj (m) compaia nel campione,
e p(1; w; Nj (m); 1) = Njw(m) , la probabilita che l'anticorpo i sia uno dei
w del campione, anche la probabilita che almeno un anticorpo a
distanza m dall'antigene j sia nel campione, quando non ve ne sono
a distanza minore, sia:
2
P E2=E1
(
X
)
=
=
=
p w ; N Vj m ; Nj m p w; Nj m ; w
w=1
X
p w ; N Vj m ; Nj m N wm w
j
w=1
1
(
;
(
)
(
)) (1;
(
;
(
)
(
))
(
) 1)
1
1
(
)
p ; N Vj m ; Nj m :
Nj m
(0;
(
(
)
(
)
)
Si puo inne ricavare l'espressione del tness per l'i-esimo anticorpo:
fi
l
X
=
=
X
s(dij )j P (E2=E1)P (E1)
m=0 j 2Si (m)
l X s(d )
X
ij j
[p(0; ; N; Vj (m))(1
N
m=0 j 2Si (m) j (m)
p ; N Vj m ; Nj m ;
(0;
(
)
ove la somma su m tiene conto di tutte le possibili distanze dall'anticorpo i, la somma su j considera tutti gli antigeni j a distanza m
da i, ed inne Si(m) e l'insieme di tutti gli antigeni j a distanza m
dall'anticorpo i.
In entrambe le espressioni trovate per il tness si intravede una
struttura da tness condiviso, data dalla presenza del termine Nj (m)
al denominatore, che conferma che la procedura stabilita permette
una suddivisione in nicchie come auspicato, realizzando quella che e
73
(
))]
stata denita una metodica di tness condiviso implicito.
Un confronto con le proprieta del tness sharing esplicito utilizzato
da Deb e Goldberg, e precedentemente citato[DG89], puo essere di
aiuto per individuare quelle proprie del caso implicito specico.
Ricordando che il parametro sh rappresenta il valore critico di di;j
al di la del quale non vi e piu condivisione delle risorse, si riporta
qui di seguito l'analisi dei risultati, ottenibili utilizzando gli algoritmi genetici unitamente a detta funzione di tness, in funzione di
questo parametro.
Deb[Deb89] dimostra che, nell'ipotesi in cui l'algoritmo sia in grado
di scoprire e conservare q picchi equidistanti di una funzione, e possibile scegliere sh in modo che esistano q ipersfere di raggio sh,
contenenti ognuna uno ed uno solo dei q picchi, che coprano tutto
lo spazio di ricerca; ne segue che la distanza di cut-o coincide con
quella determinante l'intorno del picco fra i cui elementi si condivide il tness. Supponendo di partire, a t = 0, da una popolazione
composta dallo stesso numero d'individui per ciascun punto dello
spazio di ricerca, la prima valutazione della equazione 3.1, ove fi0
sia desunto dall'equazione 2.1, fornisce Pi = fki , con k =costante,
data l'uniforme distribuzione di punti all'interno delle ipersfere, cos
che gli individui corrispondenti ai picchi aumentano di numero. E
dunque solo alla valutazione successiva che si avverte l'eetto della
condivisione del tness, poiche a quel momento il numero degli individui a tness piu elevato e aumentato. Viceversa, quelli che vengono a trovarsi all'interno di una o piu sfere di raggio sh subiscono
drastiche diminuzioni di tness in seguito alla presenza dei molti
elementi di estremo contenuti nel proprio intorno. L'eetto combinato dei due provoca una forte aggregazione di punti di picco e
scarsita di punti nelle regioni circostanti, e dunque la realizzazione
dello sharing sui q picchi come atteso; la situazione sara stazionaria
quando tutti i valori di tness saranno uguali e quindi la selezione
proporzionale non modichera oltre la distribuzione degli individui.
Qualora sh non fosse stato scelto di dimensione opportuna per contenere un solo valore di picco ma, ad esempio, due, gli individui
corrispondenti si sarebbero inuenzati vicendevolmente, cos che in
realta il GA avrebbe converso ad uno solo dei due, comportandosi
1
74
localmente come algoritmo di ottimizzazione. Un caso limite si ha
quando il raggio dell'ipersfera abbraccia l'intero spazio di ricerca, per
cui il tness assoluto e condiviso coincidono a meno di una costante
uguale per tutti gli individui; ne segue che, in mancanza di sharing,
il GA ottimizza sull'intero spazio trovando un solo valore ottimale.
Quando viceversa sh e troppo piccolo, individui prossimi a quelli
di picco possono non esserne sucientemente inuenzati, cos da rimanere nella popolazione nale, disturbando la convergenza. Il caso
limite si ha per sh = 0, quando avviene che: fi0 = fsh;i = Pfii , che, sostituito nell'equazione 3.1, ci riporta al caso in cui in un solo passaggio
le proporzioni di individui rimangono sse al valore del rapporto tra
il tness assoluto e la somma di tutti i tness.
Per poter cogliere le analogie con il tness sharing implicito studiato
e necessario analizzare il comportamento del termine ipergeometrico:
p ; N; Vj m
p ; N Vj m ; Nj m
[ (0;
(
))(1
(0;
(
)
(
)))]
che compare nell'espressione per il tness dell'anticorpo i.
Il suo valore per = 1 e:
p
!
Vj m
(
0
)
(0; 1
; N; Vj m
(
!
N Vj m
(
N
!
Nj m
)
(
1
p
))(1
(0; 1
!
(
N Vj m
(
)
N Vj m
(
1
)
(
)))
Nj m
)
1
0
(1
; N Vj m ; Nj m
(
=
!
)
!
)
)
=
1
N Vj m
N
(
)
(1
N Vj m Nj m
N Vj m
(
)
(
(
)
)
) =
Nj m
N
(
)
che sostituito nell'espressione di tness atteso da:
l
X
X s dij j
fi
:
m=0 j 2Si (m) N
Non essendoci piu alcuna dipendenza da Nj (m), e quindi suddivisione del tness, il comportamento del GA, nel cui ambito e usato,
deve essere di ottimizzazione, con un solo valore di picco, esattamente come avveniva nella trattazione di Deb per sh pari all'intero
(
=
75
)
spazio di ricerca.
Nel caso invece di = N ed m = 0, poiche si era posto P (w; N; N; Nj (m)) =
0 se w 6= Nj (m), si ottiene:
j sp ;
Nj
che indica che il tness e diviso fra tutti gli individui uguali nella
popolazione, e si riporta alla medesima situazione, che nel tness
sharing di Deb si aveva per sh = 0, di valori proporzionali di individui ssati nel tempo.
Piu in generale, le curve relative al termine ipergeometrico:
fi
R
=
(0)
p ; N; Vj m
= [ (0;
(
))(1
p ; N Vj m ;
(0;
(
) 1))]
dedotto per un anticorpo, a distanza m dall'antigene selezionato e
che sia in competizione per le risorse di tness con Vj (m) anticorpi
piu prossimi ad esso, tracciate per diversi valori di , mostrano una
forte somiglianza con la famiglia di curve della g. 2.1 per < 1,
come si puo vedere dalla gura 3.3 (ove i valori di R sono scalati
tra 0 ed 1), cos che si puo pensare ad R come all'analogo della funzione di sharing esplicito, ove giuochi il ruolo di sh , la distanza
di cut-o, al di la della quale non vi e piu sharing. Vi e pero una
dierenza sostanziale da sottolineare e cioe che, mentre sh e un valore stabilito a priori come raggio della ipersfera e dij = sh risulta
di conseguenza la distanza di cut-o, e legato a Vj (m), che indica
il numero di individui all'interno dell'ipersfera di raggio m 1 intorno ad un antigene e si modica dinamicamente: all'aumentare
degli anticorpi prossimi all'antigene diminuisce la probabilita per gli
anticorpi piu distanti di vincere la competizione, ovvero i piu ecaci impediscono ai meno ecaci di condividere la risorse. Dunque
i conni dello sharing sono funzione della proporzione di anticorpi
aggregati intorno all'antigene. In questo caso la distanza di cut-o
dipende anche dal numero totale di individui nella popolazione, N ,
76
1
σ
σ
σ
σ
σ
σ
σ
σ
0.8
0.6
= 2
= 3
= 5
= 6
= 7
= 10
= 15
= 30
R
0.4
0.2
0
0
10
20
30
40
50
60
70
80
90
100
Vj (m)
Figura 3.3: La funzione di sharing implicito per N = 100
cosa che rendera i risultati che si otterranno particolarmente interessanti:
!
!
N Vj m
!
p ; N Vj m ;
N Vj m
N Vj m N Vj m
N Vj m
1
1
(0;
(
) 1)
=
1
=
1
=
(
mentre
(
p ; N; Vj m
(0;
!
Vj m
(
))
=
0
)
)
sempre;
N Vj m
!
N
(
77
(
)
)
(
(
0
)
0
=
6
(
!
)
)
1
=
=
(
N Vj m N N Vj m N
(
(!
(
))!(
(
)!
)
)!
N Vj m
N Vj m
(
(
!
N Vj m
N Vj m
) + 1)(
(
) + 1)(
(
(
::: N :::N
) + 2)
) + 2)
(
che si annulla per N Vj (m) + i = 0, con i = 1; : : : ; Vj (m), ovvero
per:
Vj m N i () Vj m > N ;
(
) =
+
(
)
da cui segue:
R = 0 () [p(0; ; N; Vj (m))(1 p(0; ; N Vj (m); 1))] = 0 () Vj (m) > N :
In realta R diventa molto prossimo a 0 anche per valori di
Vj (m) < N , in un intervallo variabile a seconda dei valori scelti
per N e .
Questo risultato e rilevante per poter denire il numero, e di conseguenza il tipo, di stringhe che concorrono a formare un picco nello
spazio di ricerca, costituendo per questo una guida nell'interpretazione
dei risultati.
Per tutte le esperienze eseguite, salvo che sia diversamente indicato,
si e fatto uso dei seguenti valori dei parametri: la popolazione di
anticorpi era costituita di 100 elementi, i rapporti di mutazione e
crossover erano rispettivamente 0.001 e 0.6 ed inne valeva 30.
Dalle curve mostrate di gura 3.3 possiamo desumere che l'intorno
del valore di picco, con i valori scelti di N e , puo essere preso
molto piu piccolo di N dal momento che i valori di R sono molto
prossimi a 0 gia per Vj (m) 20. L'algoritmo aveva termine quando si
erano raggiunte le 500 generazioni, ed il numero di cicli eseguiti per
ogni generazione era pari a tre volte la dimensione della popolazione
di anticorpi.
78
)
3.2.1 Procedura di Analisi dei Dati
Il programma utilizzato, GENEsYs, ore una ampia varieta di parametri
ed operatori con i quali si puo agire per adattare l'algoritmo alle proprie esigenze, e permette di usufruire di una vasta gamma di strumenti con cui monitorare lo stato della popolazione e dei singoli individui, ad un qualsivoglia istante temporale nel corso dell'evoluzione.
Una delle possibilita oerte, e la memorizzazione dell'intera popolazione di stringhe ad intervalli temporali scelti, che permette di
osservare la distribuzione degli individui per poterne conoscere lo
stato di evoluzione.
Tale opportunita e fondamentale quando, per eseguire lo studio dei
risultati, si debba vericare la composizione della popolazione. Sottolineamo che l'analisi dei dati nel caso di funzioni multimodali non
note a priori, e generalmente piuttosto delicata, in quanto e estremamente complesso risalire alla reale forma funzionale sulla sola base
della distribuzione dei dati, senza che se ne conoscano le informazioni
strutturali. Di queste tematiche si occupa quella branca della statistica nota con il nome di cluster analisys.
Per poter estrarre le informazioni cercate dagli esperimenti fatti,
si e reso necessario individuare una opportuna procedura di analisi
dati che consentisse di rintracciare nelle popolazioni memorizzate
quegli individui che rispondessero alle caratteristiche richieste. Tale
procedura si e articolata nei seguenti punti:
1. memorizzazione di tutte le stringhe comparse nel corso dell'evoluzione
ad intervalli generazionali ssati, e delle relative frequenze, mediate sul numero di prove ripetute dell'esperimento;
2. identicazione delle stringhe signicative all'interno della popolazione. Si esegue cercando fra tutte le stringhe diverse quelle
che abbiano almeno una frequenza media, in una delle generazioni osservate, maggiore di un soglia, dinamicamente denita
79
sulla base della distribuzione delle occorrenze di tutti gli individui durante l'intero arco evolutivo. I dettagli di tale procedura, estremamente complessa, non sono riportati per ragioni
di spazio.
3. identicate le stringhe piu signicative e prese come stringhe di
riferimento, si traccia una rappresentazione graca tridimensionale nella quale vengono riportate, per ogni generazione, le
frequenze medie cumulative delle stringhe che si trovano alla
medesima distanza di Hamming da quella di riferimento;
4. usando come guida i risultati trovati teoricamente sul raggio
delle nicchie ecologiche ed osservando la struttura morfologica
dei picchi quale emerge dai graci tridimensionali, si sceglie
una opportuna distanza in bit in base alla quale decidere se
una stringa appartiene all'intorno di quella di riferimento;
5. le frequenze delle stringhe appartenenti ad un stesso intorno
vengono cumulate, mostrando una maggiore velocita di convergenza ed una maggiore risoluzione dei picchi.
La procedura grazie ai propri meccanismi di adattabilita e di controllo incrociato sui dati, si e rivelata robusta, permettendo di scartare
eventuali false convergenze, ed ha consentito, attraverso una ecace visualizzazione, lo studio delle proprieta del sistema evolutivo
in esame.
Nei paragra successivi verranno mostrati i risultati relativi a gruppi
di esperimenti, ciascuno eettuato per indagare un diverso aspetto
del sistema immunitario.
3.2.2 Stabilita della Diversita Anticorpale
La popolazione di antigeni e costituita per meta di elementi uguali
ad una stringa composta di tutti 1, e per meta di elementi uguali
ad una stringa costituita di tutti 0, con uguale probabilita di essere selezionati per il confronto; la popolazione iniziale di anticorpi
80
conta anch'essa medesime proporzioni delle stesse stringhe in modo
da contenere gia inizialmente elementi complementari a quelli antigenici. Lo scopo e quello di vericare che si possano mantenere
costantemente presenti, e numerosi, all'interno della popolazione di
anticorpi, due di essi che siano complementari agli antigeni dei due
tipi. Come si puo vedere dalla gura 3.4(alto), benche la quantita
assoluta di elementi rappresentativi di ciascuna stringa anticorpale
diminuisca, come e normale che accada per eetto del crossover, il
loro valore relativo rimane invariato e stabile gia a partire da una
decina di generazioni. Il graco tridimensionale riferito ad una delle
due di queste stringhe (g. 3.4(basso)) mostra inoltre che esse sono
le uniche presenti di una certa rilevanza, mentre le rimanenti sono
fortemente disperse fra elementi di frequenza quasi nulla e di durata
breve. L'esperienza eseguita con tre stringhe diverse di antigeni,
una composta di tutti 1, una di tutti 0 ed una di 0 ed 1 alternati,
e con percentuali uguali dei tre anticorpi complementari, ha riportato risultati analoghi, come si puo desumere dalle gg. 3.5(alto) e
3.5(basso).
Si vedra meglio in seguito che non vi e alcuna dicolta a perpetuare
un numero piu elevato di stringhe nella popolazione, purche siano
vericate alcune condizioni. La stessa proporzionalita fra antigeni
viene ritrovata e costantemente mantenuta fra gli anticorpi anche
quando le proporzioni iniziali di quest'ultimi sono completamente
dierenti, sottolineando la grande robustezza dell'algoritmo nei confronti di un qualsiasi disturbo di qualsiasi entita; le gg. 3.6(alto) e
3.6(basso) mostrano il comportamento dell'algoritmo nel caso delle
due stringhe e le gg. 3.7(alto), 3.7(basso) e 3.8 quello nel caso
delle tre stringhe. Le ultime due esperienze sono state ripetute
con la sola variante di = 5, trovando per risultato un solo elemento emergente, costituente una stringa in grado di coprire tutti
gli antigeni nella popolazione, seppur con diverse anita. La gura
3.9(alto) mostra come la stringa in esame recuperi velocemente dopo
81
Figura 3.4: In alto: Frequenza media delle stringhe di anticorpi che forniscono
gia inizialmente la risposta corretta al problema posto.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di Hamming dalla stringa 11 : : : 11
82
Figura 3.5: In alto: Frequenza media delle stringhe di anticorpi che forniscono
gia inizialmente la risposta corretta al problema posto; ogni valore riportato corrisponde ad una media su 30 prove ripetute.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 00 : : : 00
83
Figura 3.6: In alto: Frequenza media delle stringhe di anticorpi che forniscono
gia inizialmente la risposta corretta al problema posto, ma con proporzioni iniziali
relative dierenti da quelle tra antigeni; ogni valore riportato corrisponde ad una
media su 30 prove ripetute.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 00 : : : 00
84
Figura 3.7: In alto: Frequenza media delle stringhe di anticorpi che forniscono
gia inizialmente la risposta corretta al problema posto, ma con proporzioni iniziali
relative dierenti da quelle tra antigeni; ogni valore riportato corrisponde ad una
media su 30 prove ripetute.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 00 : : : 00
85
Figura 3.8: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 101 : : : 101
una caduta iniziale dovuta all'intervento del crossover, e la gura
3.9(basso) come la sua supremazia sia schiacciante rispetto agli altri anticorpi della popolazione dalla vita emera. In gura 3.10 la
stringa dell'anticorpo 11. . . 11 non compare, perche di tale modesta
entita da non essere evidenziata dalla procedura di analisi; lo studio tridimensionale porta ad un andamento estremamente simile a
quello del caso precedente, condizioni iniziali a parte.
3.2.3 Scoperta della Diversita
Proporzioni Uguali di Antigeni
La popolazione iniziale di antigeni e la medesima delle esperienze
del precedente paragrafo, ma la popolazione iniziale di anticorpi
e formata da stringhe costruite scegliendo i singoli bit in modo
pseudocasuale. Lo scopo e quello di capire se sia possibile, non
86
Figura 3.9: In alto: Frequenza media delle stringhe di anticorpi che forniscono gia
inizialmente la risposta corretta al problema posto, con proporzioni iniziali relative
uguali a quelle degli antigeni e per = 5; ogni valore riportato corrisponde ad
una media su 30 prove ripetute.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 101 : : : 101; =87
5
Figura 3.10: Frequenza media delle stringhe di anticorpi che forniscono gia inizialmente la risposta corretta al problema posto, ma con proporzioni iniziali relative
dierenti da quelle tra antigeni e = 5; ogni valore riportato corrisponde ad una
media su 30 prove ripetute
88
piu solo perpetuare la presenza numerosa di stringhe complementari a quelle antigeniche, ma rinvenirle e quindi conservarle nella
popolazione. Essendo il compito sicuramente un po piu arduo dei
precedenti, la lettura dei dati e un po piu complessa. Partendo
dall'esame dei risultati relativi al caso di due stringhe dierenti di
antigeni, si puo osservare dalla gura 3.11(alto) che le stringhe di
anticorpo individuate dalla procedura di analisi dei dati sono solo
quelle complementari degli antigeni; lo studio piu completo sulle frequenze cumulative degli individui con uguale distanza di Hamming
da ciascuna di queste stringhe (g. 3.11(basso)), tenendo conto del
numero di questi che possono essere ritenuti parte di un picco sulla
base delle considerazioni svolte nel corso della trattazione analitica
dell'algoritmo, consente di tracciare gli andamenti di convergenza
di gura 3.12, basati su stringhe che sono uguali a quelle di picco a
meno di tre bit, o se si vuole, per il 95% dei bit. Da notare che il valore di picco nale e intorno alle 30 stringhe medie, come si trovava
nelle esperienze del paragrafo precedente.
La situazione risulta apparentemente piu confusa per il caso di tre
stringhe di antigeni, poiche i tre picchi rinvenuti sono s ben delineati ma meno netti del caso precedente (g. 3.13(basso)); la scelta
dei tre bit di dierenza, rispetto alle stringhe di picco complementari degli antigeni, per giudicare l'appartenenza o meno al picco,
si e basata, oltre che sui criteri citati, sulla constatazione di una
variazione scarsissima delle frequenze medie all'ulteriore aumento di
un bit (g. 3.13(alto)); e comunque da sottolineare la provata capacita dell'algoritmo di rinvenire tutti gli elementi corretti, sebbene
si possa spostare in avanti o indietro il momento della raggiunta
stabilita.
Ripetendo l'esperienza, sempre trattando la stessa popolazione di
tre antigeni e partendo da una popolazione casuale di anticorpi, ma
avendo preso = 5, si ritrova nuovamente una sola stringa di picco
nella popolazione di anticorpi (g. 3.14(alto) e 3.14(basso)), quella
89
che ha un perfetta complementarita con uno degli antigeni ed una
complementarita intermedia con entrambe le rimanenti stringhe,
confermando nuovamente la stretta dipendenza tra numero di picchi rinvenibili ed il parametro , se si mantiene costante il numero
totale di individui nalla popolazione di anticorpi. Si noti che la frequenza media della stringa e pari a circa il 70% della popolazione,
accentrando di conseguenza troppe risorse perche un altro individuo
possa, anche se con una presenza modesta, sopravvivere.
Proporzioni Dierenti di Antigeni
In questo esperimento si cerchera di idagare la possibilita di individuare e conservare anticorpi che siano complementari ad antigeni
presenti in proporzioni dierenti; per la precisione la popolazione
antigenica e costituita per il 50% di stringhe con tutti i bit posti a
0, per il 30% di stringhe con tutti i bit posti a 1 ed inne, per il
rimanente 20% di stringhe con i bit posti alternativamente a 0 ed 1;
la popolazione anticorpale e generata inizialmente in modo pseudocasuale.
Solo due sono state le stringhe rintracciate, quella complementare
alla stringa 11 : : : 11 e quella complementare alla stringa 00 : : : 00, i
cui andamenti della frequenza media nel corso delle generazioni
sono riportati in gura 3.15(alto), tenendo conto, nel calcolo, delle
stringhe che sono uguali ad esse a meno di tre bit. L'esame degli
andamenti tridimensionali, (g. 3.15(basso)), mostra che tra le
due stringhe trovate potrebbe esserci una terza stringa signicativa,
rimasta di entita troppo modesta per essere evidenziata, ma che
potrebbe emergere con opportune modiche di alcuni parametri. A
questo proposito sono state fatte delle prove, a carattere piu generale, che hanno dimostrato un miglioramento della convergenza soprattutto in funzione del numero di punti di crossover, trovando un
valore ottimale per esse di 2. Modicando in questo senso il valore di
detto parametro si e eettivamente riusciti a mettere in luce anche
90
Figura 3.11: In alto: Frequenze Medie degli Anticorpi complementari degli antigeni; la popolazione iniziale di anticorpi era casuale; ogni valore riportato corrisponde ad una media su 30 prove ripetute.
In basso: Frequenze Medie cumulative degli individui con uguale distanza di
Hamming dalla stringa 11 : : : 11
91
Figura 3.12: Frequenze Medie degli Anticorpi complementari degli antigeni, cumulate con quelle di individui ad essi uguali entro 3 bit; la popolazione iniziale di
anticorpi era casuale; ogni valore riportato corrisponde ad una media su 30 prove
ripetute
92
Figura 3.13: In alto: Frequenze Medie degli Anticorpi complementari degli antigeni, cumulate con quelle di individui ad essi uguali entro 3 bit; la popolazione
iniziale di anticorpi era casuale; ogni valore riportato corrisponde ad una media
su 30 prove ripetute.
In basso: Frequenze Medie cumulative degli individui con uguale distanza di
Hamming dalla stringa 00 : : : 00
93
Figura 3.14: In alto: Frequenze Medie dell'unico Anticorpo trovato, cumulate con
quelle di individui ad esso uguali entro 3 bit; la popolazione iniziale di anticorpi
era casuale; ogni valore riportato corrisponde ad una media su 30 prove ripetute.
In basso: Frequenze Medie cumulative degli individui con uguale distanza di
Hamming dalla stringa 010 : : : 010
94
la stringa 010 : : : 010 (g. 3.16(alto) e g. 3.16(basso)), ottenendo
contemporaneamente un ulteriore miglioramento della convergenza
per le precedenti due stringhe. Inne e da sottolineare che la gerarchia delle quantita dei rappresentanti di ciascun individuo rispecchia
quella delle complementari stringhe di antigeni.
Non si puo dunque che concludere che dierenze in quantita degli
antigeni si rispecchiano nelle quantita relative degli anticorpi complementari, sempre che ci siano le condizioni opportune perche per
ciascun elemento antigenico ve ne sia uno anticorpale a lui perfettamente complementare; come vedremo in seguito tali condizioni
risultano dettate dai valori di ed N .
3.2.4 Dimensione Critica della Popolazione di Anticorpi
Si e visto nei precedenti paragra che non sempre nella popolazione
di anticorpi evoluta si ritrovano tante stringhe quante sono quelle
antigeniche di riferimento, ma che, ad esempio, ve ne possono essere
in numero minore e con qualita assai diverse da quelle che realizzano la perfetta complementarita antigene-anticorpo; e necessario
dunque capire da quali parametri e con quali modalita dipenda tale
variazione nel numero dei componenti la popolazione nale di anticorpi. Ricordando i risultati ottenuti durante la trattazione analitica delle proprieta dei picchi relative all'algoritmo usato, e dunque
sospettando una forte dipendenza dai parametri N e , si sono eseguiti un primo gruppo di esperimenti in cui si e variata la quantita
di anticorpi nella popolazione, mantenendo invariato il rapporto N .
La dimensione della popolazione e stata di 50, 100 e 200 individui ed
il rapporto suddetto e stato di 0:15; gli antigeni sono stati generati in
modo pseudocasuale. Poiche lo scopo e quello di capire sotto quali
condizioni siano individuati contemporaneamente tutti gli anticorpi
complementari degli antigeni, si e testata la popolazione al termine
di ciascuna prova eseguita, per vericare che detta condizione si
fosse o meno vericata. In caso di risposta positiva la prova veniva
95
Figura 3.15: In alto: Frequenza media delle stringhe di anticorpi generate casualmente per tre antigeni con dierenti proporzioni nella popolazione iniziale; un
punto di crossover.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 11 : : : 11
96
Figura 3.16: In alto: Frequenza media delle stringhe di anticorpi generate casualmente per tre antigeni con dierenti proporzioni nella popolazione iniziale; due
punti di crossover.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 11 : : : 11
97
conteggiata fra quelle valide; una volta raggiuntene 50 per ciascun
insieme dei parametri, si calcolava su queste il numero medio di anticorpi, presenti nella popolazione, complementari di un antigene.
Se viceversa si raggiungevano 50 prove non valide si considerava che
le stringhe non fossero state tutte individuate, e si poneva a zero il
numero di anticorpi presenti per antigene. I risultati trovati sono
riassunti in tabella 3.1, in cui e riportata anche la percentuale di
prove in cui non erano presenti tutti gli anticorpi cercati. Si noti
inoltre che vi e un numero crescente di individui che non entra a
fare parte dei picchi, e che tale valore aumenta dal 30% al 50% con il
numero dei picchi da riconoscere.
Tabella 3.1: Numero minimo di anticorpi necessari per l'esistenza di anticorpo
specico
Anticorpi nella Antigeni Frequenza Deviazione Percentuale di
popolazione
dierenti
media
standard
fallimenti
50
50
50
2
3
4
17.5
0.0
0.0
2.4
0.0
0.0
19
99
100
100
100
100
100
2
3
4
5
35.0
19.5
0.0
0.0
3.2
2.3
0.0
0.0
0
12
56
100
200
200
200
200
200
200
200
200
2
3
4
5
6
7
8
9
69.4
40.4
27.1
20.7
16.4
0.0
0.0
0.0
5.2
3.2
2.0
1.7
1.5
0.0
0.0
0.0
0
0
0
8
23
54
80
100
Dal punto di vista immunitario la dipendenza da N e fa pensare
che agli antigeni che penetrano nell'organismo vengano contrapposti
98
anticorpi specici solo se in esso vi e un numero di anticorpi sucientemente alto da poter permettere al sistema di destinarne un
numero minimo a ciascuno; tale numero si e trovato essere circa
18. In mancanza di questa quantita minima il sistema risponde
alle sollecitazioni sviluppando altre strategie che devono essere ulteriormente indagate. E bene precisare n d'ora pero, che queste
considerazioni non risultano piu valide quando il valore di diviene
troppo piccolo, come si mostrera nei paragra successivi.
3.2.5 Potere Risolutivo del Modello
Ci si puo chiedere se i risultati ottenuti non dipendessero dal tipo di
stringhe scelte, considerando che esse erano massimamente dissimili
fra loro; per rispondere a questo quesito si e cercato di capire se e
quanto i risultati fossero inuenzati dalle reciproche somiglianze, o
equivalentemente dalle reciproche distanze di Hamming. Si e cos
formata una coppia di antigeni dierenti, per ciascun esperimento
eseguito, costituita sempre di una stringa composta di tutti bit a
valore 0 e di una avente, in un caso, tutti i valori dei bit posti a
0 tranne uno, in un altro tutti i valori dei bit posti a 0 tranne 4,
e cos via no ad ottenere 64 bit posti ad 1; il numero di individui
per ciascun tipo di stringa era il medesimo. I valori ssati di N
e sono stati rispettivamente 100 e 15 ed inoltre la popolazione
di anticorpi e stata generata in modo pseudocasuale, in modo da
poter testare la robustezza dell'azione sia nella individuazione delle
stringhe che nella stabilita; le prove ripetute sono state 5. Avendo
mantenuto la dimensione della popolazione di anticorpi a 100 e = 15,
ci si aspetta che, in sintonia con quanto trovato nell'esperimento del
capitolo precedente, vengano generati anticorpi complementari per
entrambi gli antigeni.
I risultati riportati in g. 3.17 mostrano che la risoluzione e asso-
99
Figura 3.17: Potere risolutivo per due stringhe di antigeni dierenti.
100
lutamente indipendente dal grado di dierenza fra le stringhe antigeniche, poiche anche stringhe che dieriscono tra di loro di un solo
bit vengono perfettamente separate e riconosciute. E da notare inoltre la diminuzione di frequenza media con l'aumentare della distanza di Hamming fra le stringhe, con un conseguente incremento nel
numero di stringhe dierenti che non sono identicabili con nessuna
stringa di anticorpo; dunque all'aumentare della diversicazione fra
gli individui aumenta la dispersione, per eetto del crossover, fra le
tante possibili combinazioni di essi.
I medesimi valori di N e sono utilizzabili, sempre in virtu dei
risultati del precedente paragrafo, anche per eseguire il medesimo
esperimento di cui sopra con tre stringhe antigeniche dierenti, potendosi aspettare la presenza di tre anticorpi specici per esse nella
popolazione anticorpale. Le stringhe di antigene sono state scelte
come costituite una di bit tutti a valore 0, una di bit tutti a valore
1 ed una composta di una sequenza di bit con valore 0 seguita da
una sequenza di bit con valori 1 che nei vari esperimenti sono state
rispettivamente 16 e 48, 12 e 52, 8 e 56, 4 e 60, ed inne 1 e 63; tutte le
stringhe erano in ugual numero nella popolazione e le prove ripetute
per ciascun esperimento sono state 5. Anche in questo caso la prima
serie di esperimenti ha mostrato una notevole rumorosita che disturbava la convergenza, g. 3.18, per cui si e nuovamente ricorso
all'aumento del numero dei punti di crossover, portato al valore ottimale 2 e si e anche aumentato il numero delle prove ripetute sino
a venti. Si riportano solo alcuni dei graci relativi a questa nuova
seria di esperimenti. Le gure 3.19(alto), 3.20(alto), e 3.21(alto) relative agli esperimenti in cui la terza stringa e quella complementare
rispettivamente a quella contenente 16, 8 ed 1 zero, mostrano che
quanto piu due stringhe sono simili tanto piu le loro velocita di convergenza si assomigliano, probabilmente sempre in virtu del fatto
che la selezione agisce fortemente in regioni vicine dello spazio di
ricerca minimizzando l'azione distruttiva del crossover.
101
Figura 3.18: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 00 : : : 00 nel caso di potere risolutivo per tre stringhe di
antigeni dierenti
102
Dalle gure 3.19(basso), 3.20(basso) e 3.21(basso) si vede ancor
piu chiaramente che il diminuire della dierenza in bit non comporta
nessuna dicolta per la convergenza.
Dunque l'interpretazione e piuttosto chiara: non e tanto importante
la dierenza fra gli anticorpi perche essi possano essere ad elevata
specicita, quanto la dimensione della popolazione, ed il parametro
, che devono risultare adeguati a fare s che tali anticorpi riescano
ad evolvere.
3.2.6 Scoperta della Diversita come Funzione dei Parametri
Ne
Negli esperimenti precedenti abbiamo aumentato N ma variando di
conseguenza in modo che il rapporto N rimanesse costante; adesso
si vuole vedere quali eetti abbia sulla popolazione di anticorpi la
variazione del solo rispetto ad N . La popolazione antigenica comprende tre stringhe dierenti che sono state prese lunghe 66 bit per
comodita, e che sono costruite unendo sequenze di 22 bit posti tutti
a valori uguali, il che consente anche una rappresentazione abbreviata della stringa, quando si indichi con il singolo valore di bit la
corrispondente sequenza di valori. Dunque la stringa 101 indichera la
stringa recante 22 bit uguali ad uno seguiti da 22 bit uguali a zero
ed inne da 22 bit uguali ad uno, cos che possiamo aermare di
avere una popolazione di antigeni costituita dalle stringhe 000, 110,
011. Ciascun esperimento e stato realizzato per un valore di dierente, ove tali valori sono stati 2, 3, 6, 7, 10; si sono inoltre eseguite
sempre 20 prove ripetute per ciascun tipo di esperimento. Poiche
il numero di stringhe trovate puo, banalmente, essere minore, maggiore o uguale al numero di antigeni, ci si aspetta che, se il numero
di esse dipende dal parametro , si sviluppino stringhe speciche
e/o stringhe con un grado di complementarita intermedio che siano
in grado di abbracciarne piu di una, come ad esempio avviene per
103
Figura 3.19: In alto: Potere risolutivo per tre stringhe di antigeni dierenti; il
terzo anticorpo presenta 48 bit a 0 e 16 ad 1.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 00 : : : 00
104
Figura 3.20: In alto: Potere risolutivo per tre stringhe di antigeni dierenti; il
terzo anticorpo presenta 56 bit a 0 e 8 ad 1.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 00 : : : 00
105
Figura 3.21: In alto: Potere risolutivo per tre stringhe di antigeni dierenti; il
terzo anticorpo presenta 63 bit a 0 e 1 ad 1.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 00 : : : 00
106
l'individuo 101 che ha medesima distanza di Hamming da tutte le
tre stringhe scelte.
Riportiamo i graci relativi nelle gure: 3.22(alto), 3.23, 3.24(alto),
3.25(alto) e 3.26(alto), nell'ordine di valori crescenti di , ove le
stringhe sono state prese uguali a meno di due bit. Per uguale a 2
e 3 non compaiono gli individui specici ma solo la stringa del tipo
101 e la convergenza non incontra dicolta perche non vi e rumore
nella popolazione: g. 3.22(basso); nella popolazione si e inoltre
accertata l'assenza completa di stringhe uguali a quelle complementari degli antigeni, il che signica che non solo tali stringhe non sono
presenti al momento della verica della convergenza, ma che di fatto
non sono mai praticamente comparse.
Per tutti gli altri valori di si e avuta la comparsa contemporanea
sia degli anticorpi specici per gli antigeni, sia di quelli aventi caratteristiche di multispecicita, ed inoltre si riscontra per tutti i valori
di , una tendenza della stringa anticorpale composta di tutti bit a
valore 1 a prevalere sulle altre, sia per velocita di convergenza che
per numero di esemplari. Questo e probabilmente dovuto alla particolare popolazione di antigeni scelta, in cui i geni con allele zero
sono presenti in numero maggiore rispetto a quelli con allele 1, ed
alla specica funzione per l'assegnazione del punteggio, la funzione
di Hamming, che ha la particolarita di essere lineare nel punteggio
di bit e quindi di dare origine ad una sovrapposizione degli eetti.
Dal punto di vista del singolo bit della stringa articorpale, questo
signica un maggiore punteggio per i bit con valore 1, e dal punto di
vista della stringa, un maggiore punteggio se costituita di bit uguali
ad uno, e quindi un maggiore incremento di tness.
Per l'ultimo valore di le curve relative agli anticorpi specici si
distaccano da quella dell'anticorpo multispecico, incrementandosi
in frequenza. Dalle gure: 3.24(basso), 3.25(basso) e 3.26(basso) si
vede anche che all'aumentare di il rumore diminuisce molto, e la
107
g. 3.25(basso) mostra anche che il secondo picco non e in corrispondenza della distanza di Hamming 44 dalla stringa di riferimento, ma
di distanze minori, segno dell'esistenza di moltissime stringhe simili
alle stringhe 001 e 100, sebbene il numero di queste non sia particolarmente elevato.
Gli stessi esperimenti sono stati eseguiti cambiando solo il numero
di individui nella popolazione di anticorpi: 300, 500, e 800, trovando
comportamenti simili a quelli descritti per N = 100, ad esempio per
valori bassi di (g. 3.27).
Per N = 300 e = 6 non si rinviene la stringa 101 multispecica, ma
per poco, ed un auspicabile miglioramento con il numero di punti
di crossover pari a 2 di fatto non avviene, anzi: se nel primo caso la
stringa non viene rinvenuta per poco, poiche la frequenza di cut-o
generata nella analisi dei dati e di poco piu alta del piu alto valore
delle sue frequenze medie, nel secondo viene completamente annullata perche esiste un drift verso le regioni a maggior tness, quelle
corrispondenti agli anticorpi specici. L'esistenza di questa ulteriore stringa puo essere sospettata sulla base della g. 3.28. In tutti
i casi tranne quello appena citato, si evidenzia un'ulteriore stringa
a carattere multispecico, quella di tutti 0, benche con frequenza
piuttosto bassa: gure 3.29, 3.30, 3.31 e 3.32(alto) ed anche il
rumore e nettamente diminuito: gure 3.33 e 3.32(basso).
Riassumendo: all'aumentare di gli anticorpi complementari degli
antigeni tendono ad avere un numero sempre maggiore di rappresentanti, mentre contemporaneamente esistono modeste quantita di
elementi multispecici; questi aumentano all'aumentare di N per
medesimi valori di ; allo stesso modo, qualsiasi sia N , se e troppo
piccolo, non evolve che un anticorpo in grado di abbracciare tutti i
possibili antigeni ssati. Nel solo caso N = 300, = 6 coesistono solo
individui specici per gli antigeni.
108
Figura 3.22: In alto: N = 100; = 2, tre antigeni dierenti; la popolazione
evolve in una singola stringa con proprieta di multispecicita.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 11 : : : 00 : : : 11
109
Figura 3.23: N = 100; = 3, tre antigeni dierenti; la popolazione evolve in una
singola stringa con proprieta di multispecicita.
110
Figura 3.24: In alto: N = 100; = 6, tre antigeni dierenti; la popolazione evolve
in una singola stringa con proprieta di multispecicita e tre stringhe speciche
per gli antigeni.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 00 : : : 00 : : : 11.
111
Figura 3.25: In alto: N = 100; = 7, tre antigeni dierenti; la popolazione evolve
in una singola stringa con proprieta di multispecicita e tre stringhe speciche
per gli antigeni.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 11 : : : 11 : : : 11
112
Figura 3.26: In alto: N = 100; = 10, tre antigeni dierenti; la popolazione
evolve in una singola stringa con proprieta di multispecicita e tre stringhe speciche per gli antigeni.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 00 : : : 00 : : : 11
113
Figura 3.27: N = 300; = 2, tre antigeni dierenti; la popolazione evolve in una
singola stringa con proprieta di multispecicita.
114
Figura 3.28: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 11 : : : 11 : : : 11; N = 300; = 6
115
Figura 3.29: N = 300; = 7, tre antigeni dierenti; la popolazione evolve in due
stringhe con proprieta di multispecicita e tre stringhe speciche per gli antigeni.
116
Figura 3.30: N = 300; = 10, tre antigeni dierenti; la popolazione evolve in due
stringhe con proprieta di multispecicita e tre stringhe speciche per gli antigeni.
117
Figura 3.31: N = 500; = 7, tre antigeni dierenti; la popolazione evolve in due
stringhe con proprieta di multispecicita e tre stringhe speciche per gli antigeni.
118
Figura 3.32: In alto: N = 800; = 10, tre antigeni dierenti; la popolazione
evolve in due stringhe con proprieta di multispecicita e tre stringhe speciche
per gli antigeni.
In basso: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 00 : : : 00 : : : 00; N = 800; = 10
119
Figura 3.33: Frequenza media cumulativa delle stringhe con uguale distanza di
Hamming dalla stringa 00 : : : 00 : : : 11; N = 800; = 10
120
Conclusioni
In questo lavoro di tesi sono state studiate ed evidenziate, facendo
uso di algoritmi genetici, alcune proprieta del sistema immunitario.
Il modello impiegato ha consentito questa analisi introducendo alcune semplicazioni; in particolare, sia gli antigeni che gli anticorpi
sono stati schematizzati come stringhe di bit. Le proprieta, peculiari del sistema immunitario che sono emerse sono state: la capacita
di reattivita incrociata degli anticorpi con gli antigeni, consistente
nella possibilita di riconoscere pattern, cioe le medesime porzioni
antigeniche localizzate in punti dierenti nei dierenti antigeni; la
possibilita di coesistenza di piu anticorpi, ciascuno altamente specico per un particolare antigene, ed inne la multispecicita ovvero
la capacita di riconoscere con dierenti anita antigeni molto diversi fra loro. Tutte queste proprieta sono fondamentali per il SI,
poiche gli permettono il riconoscimento di un enorme quantita di
antigeni con un numero limitato di anticorpi.
Un'altra proprieta importante modellizzabile con l'uso dei GA e
stata la capacita di sviluppare anticorpi via via piu specici per
un dato antigene partendo da una popolazione a scarsa anita per
esso, ed ottenere cos una sequenza di anticorpi di complementarita
crescente. Questo e un comportamento tipico del sistema immunitario, dove, la risposta all'antigene non viene eettuata subito con
anticorpi altamente ani per essi, ma si ha invece un meccanismo
progressivo di aumento della specicita durante la proliferazione
clonale delle cellule produttrici di anticorpi, che porta gradualmente
alla selezione della classe di immunoglobuline che piu si adattano
121
all'antigene.
La capacita di mantenere diverse sottopopolazioni di anticorpi e realizzata grazie ad un meccanismo di sharing, implicito nell'algoritmo,
che confrontato con tecniche piu note di sharing esplicito ha mostrato
grande ecienza computazionale e nessuna aprioristicita. Cio ore
prospettive promettenti nel campo dei GA applicati alla ricerca su
funzioni multimodali, che ha spesso soerto di insuccessi o successi
parziali, ma soprattutto fornisce un nuovo strumento di ricerca in
ambito biologico, che in molti casi puo consentire di aggirare alcuni
dei limiti solitamente imposti dagli strumenti matematici con cui si
opera, per approdare a modellizzazioni via via piu realistiche.
122
Ringraziamenti
Si ringraziano: il Prof. Claudio Franceschi, ordinario della cattedra
di Immunologia presso la facolta di Medicina e Chirurgia di
Modena, per i suggerimenti oerti; tutti i colleghi della sezione
di Fisica Medica dell' Universita di Bologna, ed in particolare il Dott. Gianni Gottardi ed il Dott. Gastone Castellani, per la
disponibilita dimostratami; il Sig. Francesco Albanesi per il supporto
tecnico oerto sempre con la massima sollecitudine e pazienza.
Un ringraziamento del tutto speciale va al Dott. Gianni Di Caro,
borsista presso l'Istituto per la Ricerca Scientica e Tecnologica di
Trento, verso cui sono debitrice di consigli, attenzione e di un fondamentale supporto tecnico-informatico in varie fasi del presente
lavoro.
123
Bibliograa
[Aa91]
B. Alberts and altri. Biologia molecolare della cellula.
Zanichelli, Bologna, 1991.
[Ant89]
J. Antonisse. A new interpretation of schema notation
that overturns the binary encoding constraint. In J.D.
Schaer, editor, Proceedings of the Third International Conference on Genetic Algorithms, San Mateo, CA, 1989. MorganKaufmann.
[Bac92]
T. Back. A user guide to GENEsYs 1.0. Department of Computer Science, University of Dortmund, 1992.
[BB91]
R.K. Belew and L.B. Booker, editors. Proceedings of the
Fourth International Conference on Genetic Algorithms, San Mateo, CA, 1991. Morgan-Kaufmann.
[BBM94] D. Beasley, D.R. Bull, and R.R. Martin. An overview of
genetic algorithms. Electronic Digest, 1994.
[BM88]
C. Berek and C. Milstein. The dynamics nature of the
antibody repertoire. Immunol. Rev., (105):5{26, 1988.
[Boo82]
L.B. Booker. Intelligent behaviour as an adaptation to the task
environment. PhD thesis, University of Michigan, Ann Arbor, 1982.
[Cav70]
D.J. Cavicchio. Adaptive Search using simulated evolution. PhD
thesis, University of Michigan, Ann Arbor, 1970. University Microlms No. 25-0199.
124
[CS92]
F. Celada and P.E. Seiden. A computer model of cellular interactions in the immune system. Immunology Today,
1992.
[Dav91]
Y. Davidor. A naturally occurring niche and species phenomenon: the model and the rst results. In R.K. Belew
and L.B. Booker, editors, Proceedings of the Fourth International Conference on Genetic Algorithms, pages 257{263, San
Mateo, CA, 1991. Morgan-Kaufmann.
[DB88]
M.M. Davis and P.J. Bjorkman. T-cell receptor antigen
genes and t-cell recognition. Nature, (334):395{402, 1988.
[Deb89]
K. Deb. Genetic algorithms in multimodal function optimization. Master's thesis, University of Alabama, Department of Engineering Mechanics, Tuscaloosa, 1989.
TCGA Report No. 89002.
[DeJ75]
K.A. DeJong. An analysis of the behaviour of a class of genetic
adaptive systems. PhD thesis, University of Michigan, Ann
Arbor, 1975.
[DG89]
K. Deb and D.E. Goldberg. An investigation of niche
and species formation in genetic function optimization.
In J.D. Schaer, editor, Proceedings of the Third International Conference on Genetic Algorithms, San Mateo, CA, 1989.
Morgan-Kaufmann.
[DLB94] J. Darnel, H. Lodish, and D. Baltimore. Biologia molecolare
della cellula. Zanichelli, Bologna, 1994.
[Eis93]
H.N. Eisen. Immunologia generale. Zanichelli, Bologna,
1993.
[FJSP93] S. Forrest, B. Javornik, R. E. Smith, and A.S. Perelson.
Using genetic algorithms to explore pattern recognition
in the immune system. Evolutionary Computation, 1(3):191{
211, 1993.
125
[FKPP87] J.D. Farmer, S.A. Kauman, N.H. Packard, and A.S.
Perelson. Adaptive dynamic networks as models for the
immune system and autocatalytic sets. Ann. N. Y. Acad.
Sci., 54:118, 1987.
[FPP86] J.D. Farmer, N.H. Packard, and A.S. Perelson. The immune system, adaptation, and machine learning. Physica
D, 22:187{204, 1986.
[Gol89]
D. Goldberg. Genetic Algorithms in Search, Optimization and
Machine Learning. Addison-Wesley, 1989.
[GR87]
D.E. Goldberg and J. Richardson. Genetic algorithms
with sharing for multimodal function optimization. In
J. Grefenstette, editor, Proceedings of the Second International
Conference on Genetic Algorithms, pages 41{49, Hillsdale, NJ,
1987. Lawrence Erlbaum Associates.
[Gre87a] J. Grefenstette, editor. Proceedings of the Second International Conference on Genetic Algorithms, Hillsdale (NJ), 1987.
Lawrence Erlbaum Associates.
[Gre87b] J.J. Grefenstette. A user's guide to GENESIS. Navy Center
for Applied Research in Articial Intelligence, Washington, D.C., 1987.
[Hol75]
J.H. Holland. Adaptation in natural and articial systems. University of Michigan Press, Ann Arbor, MI, 1975.
[Inm78]
J.K. Inman. The antibody combining region: speculations on the hypothesys of general multispecicity. In
G.I. Bell, A.S. Perelson, and Jr.G.H. Pimbley, editors,
Theoretical Immunology, chapter 9, pages 243{278. 1978.
[LGS93] S.E. Luria, S.J. Gould, and S. Singer. Una visione della vita
- Introduzione alla biologia. Zanichelli, Bologna, 1993.
126
[Mah93] S.W. Mahfoud. Simple analytical models of genetic algorithms for multimodal function optimization. In S. Forrest, editor, Proceedings of the Fifth International Conference
on Genetic Algorithms, page 643, San Mateo, CA, 1993.
Morgan-Kaufmann. IlliGAL Report No. 93001. Department of General Engineering, University of Illinois, Urbana Champaign.
[NW92]
A. Neumann and G. Weisbuch. Window automata analysis of population dynamics in the immune system. Bull.
Math. Biol., 54:21{44, 1992.
[Par90]
G. Parisi. A simple model for the immune network. Proc.
Natl. Acad. Sci. USA, 87:429{433, 1990.
[Per89]
A.S. Perelson. Immune network theory. Immunological Reviews, (110):1{36, 1989.
[Per92]
A.S. Perelson. Mathematical approaches in immunology.
In S.I. Andersson, A.E. Andersson, and U. Ottoson, editors, Theory and Control of Dynamical Systems, pages 200{230,
Singapore, 1992. World Scientic.
[PO79]
A.S. Perelson and G.F. Oster. Theoretical studies of
clonal selection: minimal antibody repertoire size and
reliability of self-nonself discrimination. J. theor. Biol.,
81:645{670, 1979.
[RBM94] I. Roitt, J. Brosto, and D. Male. Immunologia. Zanichelli,
Bologna, 1994.
[Sch89]
J.D. Schaer, editor. Proceedings of the Third International
Conference on Genetic Algorithms, San Mateo, CA, 1989.
Morgan-Kaufmann.
[SFP93a] R. E. Smith, S. Forrest, and A.S. Perelson. Population
diversity in an immune system model: implications for
genetic search. In L.O. Whitley, editor, Foundations of
127
Genetic Algorithms 2, pages 153{165, San Mateo, CA, 1993.
Morgan-Kaufmann.
[SFP93b] R. E. Smith, S. Forrest, and A.S. Perelson. Searching fo
diverse, cooperative populations with genetic algorithms.
Evolutionary Computation, 1(2):127{149, 1993.
[Sie88]
H.B. Sieburg. A logical dynamic systems approach to the
regulation of antigen-driven lymphocyte stimulation. In
A.S. Perelson, editor, Theoretical Immunology, volume Part
One of SFI Studies in the Sciences of Complexity, pages 273{
293. Addison-Wesley, 1988.
[Var86]
Autori Vari. Le difese immunitarie - Come l'organismo riconosce
se stesso ed il mondo esterno. Le Scienze S.p.A., Milano, 1986.
[Var92]
Autori Vari. La nuova immunologia - L'io guarda se stesso per
conoscere il mondo esterno. Le Scienze S.p.A., Milano, 1992.
[VCDV88] F. Varela, A. Coutinho, B. Dupire, and N.M. Vaz. Cognitive networks: immune, neural, and otherwise. In A.S.
Perelson, editor, Theoretical Immunology, Part Two, page 359.
Addison-Wesley, Redwood City, CA, 1988.
[Vil92]
M. Villani. Algoritmi genetici di ottimizzazione su reti di transputer. Tesi di Laurea. Dipartimento di Fisica, Universita
degli Studi di Bologna, 1992.
[WA88]
G. Weisbuch and H. Atlan. Control of the immune response. Journal of Physics, 21(A):L189{L192, 1988.
128