La valutazione statistica di evidenze genetiche per le scienze

.
La valutazione statistica di evidenze genetiche per le
scienze forensi
Fabio Corradi
Pavia, 4 maggio 2000
.
Outline del seminario
Introduzione: il problema di una Corte di Giustizia
– La tipica situazione di riferimento
– Il problema della scienziato forense
– Il valore dell’evidenza: definizione e impieghi alternativi
Identificazione tramite Dna
– Modelli genetici impiegati
Problemi di kinship: missing, paternità, ricongiunzione familiare
– Dati nei problemi di kinship
– Esempio: missing person
Il problema di una Corte di giustizia
Valutare la colpevolezza di un imputato
(al di là di ogni ragionevole dubbio:probabilisticamente)
Nel corso dello svolgimento di un processo all’evento
‘‘L’imputato e’ colpevole’’ viene attribuita una probabilità variabile in funzione degli accadimenti del processo
stesso.
Quello che si vuol fare è utilizzare un metodo quantitativo rigoroso e coerente che misuri come i vari
elementi emersi nel dibattimento influenzino la probabilità dell’evento di interesse (colpevolezza)
La tipica situazione di riferimento
Viene commesso un crimine.
Si identifica un sospetto
Si rilevano tracce (EVIDENZE), ad es. trasferite dal
criminale alla scena del delitto
Si trova che caratteristiche personali del sospetto
sono uguali o simili (Possibili contaminazioni, Errori
di misura, Eterogeneità nel detenere la caratteristica) a quelle trovate sulla scena del delitto.
Il Problema dello Scienziato Forense
In scienza forense è ormai (quasi) acquisito l’uso degli
odds e del teorema di Bayes per aggiornarli
7 eventi che riguardano l’origine delle
Considera e evidenze quindi:
J__r a favore di '
J__r a favore di 7 '
E
7
E
7
E
E
'
'
E
E
7
E
7
E
C1: Gli odds sono importanti perchè comparano la
probabilità di un evento e del suo complemento a patto
che il condizionamento alle conoscenze generali e/o
alle evidenze specifiche sia lo stesso.
C2: Tipicamente la Corte di Giustizia sarà interessata
a valutare l’odds
Emgc .
7
Emgc
.
. ' assieme delle evidenze specifiche analizzate
g ' knowledge (conoscenza acquisita dal processo
fino alla acquisizione delle evidenze)
Gli ODDS a posteriori via il teorema di Bayes
Poiché
E.mc g Emg
Em.c g '
E.mg
7 g Emg
7
E.m
c
7
Em.c
g '
E.mg
l’odds a posteriori in favore di è:
Em.c g E.mc g Emg
'
7
7 g Emg
7
Em.c g E.mc
si nota che:
Gli odds, a posteriori favore di non sono altro che il
prodotto fra:
e
gli odds a priori
Il Valore dell’evidenza ovvero il rapporto delle probabilità di osservazione dell’insieme delle evidenze
7 g G questa
condizionate, rispettivamente a c g e c
quantità è centrale nel processo di apprendimento
ma sul suo calcolo ed impiego c’è diversità d’atteggiamento
Calcolo e denominazione alternativi di V
Le probabilità evidenziate nel rapporto concernono variabili osservabili (. ) condizionate ad informazioni e ipotesi
ma non vi è traccia di parametri e quindi di un modello
parametrico.
In realtà la loro valutazione passa (spesso) attraverso
un modello parametrico e in questo caso si hanno due
approcci:
frequentista: Calcolo delle stime dei parametri tramite
stimatori ad hoc, eventualmente desumibili da procedure di MLE (analitiche o numeriche) e li inserisco
nel modello parametrico per valutare la probabilità
sugli enti osservabili: rapporto d’interesse viene indicato come LR
Bayesiano: calcolo le distribuzioni a posteriori sui
parametri condizionatamente a dell’informazione rilevante, e integro poi via i parametri per calcolare
la probabilità di osservare le variabili osservabili: in
questo caso il rapporto d’interesse viene indicato come
Bayes Factor.
C1: C’è una palese incoerenza fra la probabilizzazione
delle ipotesi sulle origini delle tracce e la non accettazione
di probabilizzazione dei parametri del modello
C2: Non affrontare in modo condizionato l’inferenza
sui parametri favorisce errori nel proporre stimatori.
Impiego del Valore dell’evidenza
Anche per quanto riguarda l’impiego di T non c’è univocità:
Approccio Bayesiano: si punta al calcolo degli odds
a posteriori per cui il valore dell’evidenza una volta
stabilite le probabilità a priori di e di 7 consente
di ottenere il risultato. Dall’Aglio e de Finetti, (in un
caso di presunta truffa, 1972, 1987) presentano il
risultato per un ampio range di probabilità a priori.
Nonostante si ammetta la possibilità di probabiliz7 poiché queste probabilità sono
zare le ipotesi e c
di esclusiva competenza del giudice si suggerisce di
impiegare direttamente il valore dell’evidenza ma T
che però è definito in ?n Come interpretarlo?
– Interpretazione su intervalli arbitrari
– Interpretazione probabilistica in termini di misleading evidence che si presenta qualora i dati ottenuti
supportino una delle due ipotesi (ad esempio la
colpevolezza) e pur tuttavia il soggetto è innocente.
Esempio il sospettato possiede gli stessi genotipi
trovati sul luogo del delitto solo per una sfortunata
coincidenza). Royal (1997) a questo scopo usa un
risultato di Birnbaum (1962)
Universal bound on the probability of Misleading
Evidence
If hypothesis C impiles that the probability that a random variable E has one probability density (mass func7 ,
tion), f Em while hypothesis 7 impies another f Em
then if 7 is true the probability of observing evidence
supporting over 7 by a factor of k or more cannot
exceed &
s E.m
7
&m
7
&
s E.m
C1: Naturalmente questa valutazione di probabilità si
riferisce all’osservazione di soggetti che hanno in comune con il caso considerato l’evidenza . ma che
NON sono direttamente relati al caso in esame.
C2: nelle aule di giustizia si chiede la probabilità a
posteriori dell’ipotesi --
Calcolo del valore dell’evidenza per segmenti non
codificanti di DNA nucleare
Dati provenienti da loci genici le cui possibili realizzazioni sono denominate alleli (2 per ciascun locus)
Numero di alleli discreto
Tecnologia STR: misurazioni senza errori
. ' E.rc .Sc f o .r Galleli del sospetto
.S Galleli rilevati sul luogo del delitto
f o G matrice contenente gli alleli per i loci rilevati
per un campione proveniente dalla popolazione di
riferimento
Suspect sample perspective
Trasferimento dal sospettato al luogo del delitto. Si
assumono note le evidenze del sospettato: voglio valutare le probabilità che di trovare .S sul luogo del
delitto sotto le ipotesi, alternative che sia stato lui a
lasciarle o qualcun altro appartenente ad una specifica popolazione di riferimento
E.m
T '
7
E.m
E.Sc .rc f o m ,K
'
E.Sc .rc f o m7 ,K
E.Sm.rc f o c ,K E.rmf o c ,K
'
7 K
E.Sm.rc f o c 7 ,K E.rmf o c c
ma:
7 K
E.rmf o c ,K ' E.rmf o c c
7 K
Ef o m ,K ' Ef o mc
E.Sm.rc f o c ,K ' E.Sm.rc ,K ' i
quindi, se si realizza compatibilità,:

T '
E.Sm.rc f o f se .S '
9 .r
se .S ' .r
C1: l’ultimo passaggio evidenzia il contributo dell’informazione che congiuntamente porgono le ipotesi ipotesi
c 7 e g
stabilisce che il crime sample poteva provenire
da un’unica persona, il sospetto, i cui tratti genetici
sono .r
7 esclude che il sospetto abbia lasciato la traccia
che è quindi stata lasciata da un soggetto nella popolazione di riferimento
g che stabilisce qual è la popolazione di riferimento
di cui deve essere disponibile un campione di osservazioni f o ' E%c c %? .r in genere fa parte di
quella popolazione e deve essere incluso. Gli effetti
possono essere molto conservativi sulla probabilità
di identificazione nel caso che il tratto osservato sia
raro (Dawid, Mortera 1997).
C2: il valore dell’evidenza appare simile al Bayes Factor che emerge nella scelta
di un modello statistico:
U
E%c c %? mX EX_X
E%c c %?mP
U
'
E%c c %?mP2
E%c c %? mX2 EX2_X2
Nel Bayes Factor debbo valutare una integrated likelihood con in più il problema di dover disporre di una
a priori propria.
C3: Nel calcolo del valore dell’evidenza le semplificazioni che in genere posso apportare (posso semplificare le probabilità di enti aleatori che non dipendono
7 conducono al calcolo di
stocasticamente da e predittive mixate rispetto a parametri su cui ho potuto
apprendere in quanto il training sample su cui calcolare la a posteriori (propria) è definito in modo non arbitrari. Assumendo l’esistenza di opportuno modello
parametrico.
]
E.Sm.rc f o '
E.Sm.rc f o c w Ewm.rc f o _w
]X
'
E.Smw Ewm.rc f o _w
X
Quindi prima apprendo sui parametri
Ewm.rc f o 2 E.rc f o mw Ew
poi calcolo la predittiva.
Modelli genetici impiegati
1) Ambedue i genitori noti (Prima legge di Mendel)
E%m%R ' d@c @ oc %R2 ' d@c @& o
'
U
nU
nU
e
nU
c
2) Non noti ambedue i genitori
(Hardy Weimberg)
;
<
? k Enk ' ,@
Ek Enk o
E.Sm.rc j '
c
=2 k k
>
9' ,
Ek Enk "
#
!
$
!
$
3) Noto un genitore, l’altro proviene da una popolazione
di riferimento:
[
R
o
E%m% c j '
E%m%Rc %R2c jo E R2m Rc jo % 5[
%
&
Problemi di Kinship
Rispetto al caso standard possono essercene altri caratterizzati dall’assenza delle tracce genetiche del soggetto
che è strettamente connesso alle ipotesi da valutare.
Esempi:
valutare l’ipotesi di identificazione di un corpo come
proveniente da un soggetto missing, ovvero i cui tratti
genetici, per varie ragioni, non risultino disponibili
ma siano disponibili dati genetici sulla famiglia di supposta provenienza.
valutare l’ipotesi di paternità in caso il supposto padre
non sia disponibile al prelievo ovvero neanche la
madre, ma siano disponibili dati sulle famiglie del/i
genitori.
Riunificazioni di gruppi familiari trovati in fosse comuni.
La valutazione, in ogni caso avverrà rispetto a due
ipotesi alternative:
ipotesi F: i soggetti coinvolti e disponibili risultano
tutti legati da kinship occupando i ruoli familiari/genetici
conosciuti
ipotesi 87 G il soggetto/i coinvolti dalle ipotesi non appartengono alla ’’famiglia’’ e quindi provengono dalla
popolazione di riferimento.
Domande
1. Perchè occuparsi di problemi di kinship?
2. Perchè non occuparsi di problemi di kinship?
3. Perchè continuare ad occuparsi di problemi di
kinship?
Risposte
1. Problema rilevante e affrontato sempre più di
frequente
2. Molti si sono occupati del problema (Ihm, Hummel
,1975; Brenner 1997, Egelon, Mostad 1998, David
e Mortera, 1999)
3. Segue
Dati nei problemi di kinship
Nei problemi di kinship siamo forzati ad ottenere dati
sulle caratteristiche genetiche:
1. della popolazione tramite un campione Ef o 2. di un sottosistema genetico attraverso dati provenienti da fratelli, figli etc. che spesso hanno in
comune ambedue i genitori.
C1: Sicuramente la distribuzione congiunta delle variabili aleatorie relativi questi due tipi di dati NON è scambiabile ma talvolta siamo costretti a considerarli contemporaneamente per fare inferenza sui parametri di
un modello che rappresenta, opportunamente mixato,
la distribuzione congiunta di una parte dei dati
Esempio: missing person
Dati:
0) La traccia di una persona non identificata %%
Per la famiglia che ha una persona scomparsa
1) un solo genitore %R
r
%
2) il partner con
cui
ha
avuto
figli:
K
3) i fratelli %
4) i figli i%Sj
Per la popolazione di riferimento
5) f o
T '
E% c% ci% jc% ci% jcf m8 E% c% ci% jc% ci% jccf m87 NUMERATORE
Ei%Sjm%%c %Rc i%Kjc %rc f o c 8 E%%c %Rc i%Kjc %rc f o m8
~}

@
a)
b)
.
K
S % r
' E% m% c % c 8 T?S
S
%
q
qT
?K
% R R2
K R R2
R r
E%
c
%
c
8
m%
5[
' E% m% c % c 8 E% c %