. La valutazione statistica di evidenze genetiche per le scienze forensi Fabio Corradi Pavia, 4 maggio 2000 . Outline del seminario Introduzione: il problema di una Corte di Giustizia – La tipica situazione di riferimento – Il problema della scienziato forense – Il valore dell’evidenza: definizione e impieghi alternativi Identificazione tramite Dna – Modelli genetici impiegati Problemi di kinship: missing, paternità, ricongiunzione familiare – Dati nei problemi di kinship – Esempio: missing person Il problema di una Corte di giustizia Valutare la colpevolezza di un imputato (al di là di ogni ragionevole dubbio:probabilisticamente) Nel corso dello svolgimento di un processo all’evento ‘‘L’imputato e’ colpevole’’ viene attribuita una probabilità variabile in funzione degli accadimenti del processo stesso. Quello che si vuol fare è utilizzare un metodo quantitativo rigoroso e coerente che misuri come i vari elementi emersi nel dibattimento influenzino la probabilità dell’evento di interesse (colpevolezza) La tipica situazione di riferimento Viene commesso un crimine. Si identifica un sospetto Si rilevano tracce (EVIDENZE), ad es. trasferite dal criminale alla scena del delitto Si trova che caratteristiche personali del sospetto sono uguali o simili (Possibili contaminazioni, Errori di misura, Eterogeneità nel detenere la caratteristica) a quelle trovate sulla scena del delitto. Il Problema dello Scienziato Forense In scienza forense è ormai (quasi) acquisito l’uso degli odds e del teorema di Bayes per aggiornarli 7 eventi che riguardano l’origine delle Considera e evidenze quindi: J__r a favore di ' J__r a favore di 7 ' E 7 E 7 E E ' ' E E 7 E 7 E C1: Gli odds sono importanti perchè comparano la probabilità di un evento e del suo complemento a patto che il condizionamento alle conoscenze generali e/o alle evidenze specifiche sia lo stesso. C2: Tipicamente la Corte di Giustizia sarà interessata a valutare l’odds Emgc . 7 Emgc . . ' assieme delle evidenze specifiche analizzate g ' knowledge (conoscenza acquisita dal processo fino alla acquisizione delle evidenze) Gli ODDS a posteriori via il teorema di Bayes Poiché E.mc g Emg Em.c g ' E.mg 7 g Emg 7 E.m c 7 Em.c g ' E.mg l’odds a posteriori in favore di è: Em.c g E.mc g Emg ' 7 7 g Emg 7 Em.c g E.mc si nota che: Gli odds, a posteriori favore di non sono altro che il prodotto fra: e gli odds a priori Il Valore dell’evidenza ovvero il rapporto delle probabilità di osservazione dell’insieme delle evidenze 7 g G questa condizionate, rispettivamente a c g e c quantità è centrale nel processo di apprendimento ma sul suo calcolo ed impiego c’è diversità d’atteggiamento Calcolo e denominazione alternativi di V Le probabilità evidenziate nel rapporto concernono variabili osservabili (. ) condizionate ad informazioni e ipotesi ma non vi è traccia di parametri e quindi di un modello parametrico. In realtà la loro valutazione passa (spesso) attraverso un modello parametrico e in questo caso si hanno due approcci: frequentista: Calcolo delle stime dei parametri tramite stimatori ad hoc, eventualmente desumibili da procedure di MLE (analitiche o numeriche) e li inserisco nel modello parametrico per valutare la probabilità sugli enti osservabili: rapporto d’interesse viene indicato come LR Bayesiano: calcolo le distribuzioni a posteriori sui parametri condizionatamente a dell’informazione rilevante, e integro poi via i parametri per calcolare la probabilità di osservare le variabili osservabili: in questo caso il rapporto d’interesse viene indicato come Bayes Factor. C1: C’è una palese incoerenza fra la probabilizzazione delle ipotesi sulle origini delle tracce e la non accettazione di probabilizzazione dei parametri del modello C2: Non affrontare in modo condizionato l’inferenza sui parametri favorisce errori nel proporre stimatori. Impiego del Valore dell’evidenza Anche per quanto riguarda l’impiego di T non c’è univocità: Approccio Bayesiano: si punta al calcolo degli odds a posteriori per cui il valore dell’evidenza una volta stabilite le probabilità a priori di e di 7 consente di ottenere il risultato. Dall’Aglio e de Finetti, (in un caso di presunta truffa, 1972, 1987) presentano il risultato per un ampio range di probabilità a priori. Nonostante si ammetta la possibilità di probabiliz7 poiché queste probabilità sono zare le ipotesi e c di esclusiva competenza del giudice si suggerisce di impiegare direttamente il valore dell’evidenza ma T che però è definito in ?n Come interpretarlo? – Interpretazione su intervalli arbitrari – Interpretazione probabilistica in termini di misleading evidence che si presenta qualora i dati ottenuti supportino una delle due ipotesi (ad esempio la colpevolezza) e pur tuttavia il soggetto è innocente. Esempio il sospettato possiede gli stessi genotipi trovati sul luogo del delitto solo per una sfortunata coincidenza). Royal (1997) a questo scopo usa un risultato di Birnbaum (1962) Universal bound on the probability of Misleading Evidence If hypothesis C impiles that the probability that a random variable E has one probability density (mass func7 , tion), f Em while hypothesis 7 impies another f Em then if 7 is true the probability of observing evidence supporting over 7 by a factor of k or more cannot exceed & s E.m 7 &m 7 & s E.m C1: Naturalmente questa valutazione di probabilità si riferisce all’osservazione di soggetti che hanno in comune con il caso considerato l’evidenza . ma che NON sono direttamente relati al caso in esame. C2: nelle aule di giustizia si chiede la probabilità a posteriori dell’ipotesi -- Calcolo del valore dell’evidenza per segmenti non codificanti di DNA nucleare Dati provenienti da loci genici le cui possibili realizzazioni sono denominate alleli (2 per ciascun locus) Numero di alleli discreto Tecnologia STR: misurazioni senza errori . ' E.rc .Sc f o .r Galleli del sospetto .S Galleli rilevati sul luogo del delitto f o G matrice contenente gli alleli per i loci rilevati per un campione proveniente dalla popolazione di riferimento Suspect sample perspective Trasferimento dal sospettato al luogo del delitto. Si assumono note le evidenze del sospettato: voglio valutare le probabilità che di trovare .S sul luogo del delitto sotto le ipotesi, alternative che sia stato lui a lasciarle o qualcun altro appartenente ad una specifica popolazione di riferimento E.m T ' 7 E.m E.Sc .rc f o m ,K ' E.Sc .rc f o m7 ,K E.Sm.rc f o c ,K E.rmf o c ,K ' 7 K E.Sm.rc f o c 7 ,K E.rmf o c c ma: 7 K E.rmf o c ,K ' E.rmf o c c 7 K Ef o m ,K ' Ef o mc E.Sm.rc f o c ,K ' E.Sm.rc ,K ' i quindi, se si realizza compatibilità,: T ' E.Sm.rc f o f se .S ' 9 .r se .S ' .r C1: l’ultimo passaggio evidenzia il contributo dell’informazione che congiuntamente porgono le ipotesi ipotesi c 7 e g stabilisce che il crime sample poteva provenire da un’unica persona, il sospetto, i cui tratti genetici sono .r 7 esclude che il sospetto abbia lasciato la traccia che è quindi stata lasciata da un soggetto nella popolazione di riferimento g che stabilisce qual è la popolazione di riferimento di cui deve essere disponibile un campione di osservazioni f o ' E%c c %? .r in genere fa parte di quella popolazione e deve essere incluso. Gli effetti possono essere molto conservativi sulla probabilità di identificazione nel caso che il tratto osservato sia raro (Dawid, Mortera 1997). C2: il valore dell’evidenza appare simile al Bayes Factor che emerge nella scelta di un modello statistico: U E%c c %? mX EX_X E%c c %?mP U ' E%c c %?mP2 E%c c %? mX2 EX2_X2 Nel Bayes Factor debbo valutare una integrated likelihood con in più il problema di dover disporre di una a priori propria. C3: Nel calcolo del valore dell’evidenza le semplificazioni che in genere posso apportare (posso semplificare le probabilità di enti aleatori che non dipendono 7 conducono al calcolo di stocasticamente da e predittive mixate rispetto a parametri su cui ho potuto apprendere in quanto il training sample su cui calcolare la a posteriori (propria) è definito in modo non arbitrari. Assumendo l’esistenza di opportuno modello parametrico. ] E.Sm.rc f o ' E.Sm.rc f o c w Ewm.rc f o _w ]X ' E.Smw Ewm.rc f o _w X Quindi prima apprendo sui parametri Ewm.rc f o 2 E.rc f o mw Ew poi calcolo la predittiva. Modelli genetici impiegati 1) Ambedue i genitori noti (Prima legge di Mendel) E%m%R ' d@c @ oc %R2 ' d@c @& o ' U nU nU e nU c 2) Non noti ambedue i genitori (Hardy Weimberg) ; < ? k Enk ' ,@ Ek Enk o E.Sm.rc j ' c =2 k k > 9' , Ek Enk " # ! $ ! $ 3) Noto un genitore, l’altro proviene da una popolazione di riferimento: [ R o E%m% c j ' E%m%Rc %R2c jo E R2m Rc jo % 5[ % & Problemi di Kinship Rispetto al caso standard possono essercene altri caratterizzati dall’assenza delle tracce genetiche del soggetto che è strettamente connesso alle ipotesi da valutare. Esempi: valutare l’ipotesi di identificazione di un corpo come proveniente da un soggetto missing, ovvero i cui tratti genetici, per varie ragioni, non risultino disponibili ma siano disponibili dati genetici sulla famiglia di supposta provenienza. valutare l’ipotesi di paternità in caso il supposto padre non sia disponibile al prelievo ovvero neanche la madre, ma siano disponibili dati sulle famiglie del/i genitori. Riunificazioni di gruppi familiari trovati in fosse comuni. La valutazione, in ogni caso avverrà rispetto a due ipotesi alternative: ipotesi F: i soggetti coinvolti e disponibili risultano tutti legati da kinship occupando i ruoli familiari/genetici conosciuti ipotesi 87 G il soggetto/i coinvolti dalle ipotesi non appartengono alla ’’famiglia’’ e quindi provengono dalla popolazione di riferimento. Domande 1. Perchè occuparsi di problemi di kinship? 2. Perchè non occuparsi di problemi di kinship? 3. Perchè continuare ad occuparsi di problemi di kinship? Risposte 1. Problema rilevante e affrontato sempre più di frequente 2. Molti si sono occupati del problema (Ihm, Hummel ,1975; Brenner 1997, Egelon, Mostad 1998, David e Mortera, 1999) 3. Segue Dati nei problemi di kinship Nei problemi di kinship siamo forzati ad ottenere dati sulle caratteristiche genetiche: 1. della popolazione tramite un campione Ef o 2. di un sottosistema genetico attraverso dati provenienti da fratelli, figli etc. che spesso hanno in comune ambedue i genitori. C1: Sicuramente la distribuzione congiunta delle variabili aleatorie relativi questi due tipi di dati NON è scambiabile ma talvolta siamo costretti a considerarli contemporaneamente per fare inferenza sui parametri di un modello che rappresenta, opportunamente mixato, la distribuzione congiunta di una parte dei dati Esempio: missing person Dati: 0) La traccia di una persona non identificata %% Per la famiglia che ha una persona scomparsa 1) un solo genitore %R r % 2) il partner con cui ha avuto figli: K 3) i fratelli % 4) i figli i%Sj Per la popolazione di riferimento 5) f o T ' E% c% ci% jc% ci% jcf m8 E% c% ci% jc% ci% jccf m87 NUMERATORE Ei%Sjm%%c %Rc i%Kjc %rc f o c 8 E%%c %Rc i%Kjc %rc f o m8 ~} ~} @ a) b) . K S % r ' E% m% c % c 8 T?S S % q qT ?K % R R2 K R R2 R r E% c % c 8 m% 5[ ' E% m% c % c 8 E% c %