L’Indagine Fonica
PERIZIA PER IL RICONOSCIMENTO
DEL PARLATORE
Ten Col. Davide Zavattaro
Convegno: «Maresciallo mi sente?»
PARTE I
La prova scientifica nel
dibattimento moderno
Dall’ultimo decennio la letteratura internazionale ha
modificato il concetto di ‘scientificità’ relativo ai
metodi di identificazione e alle modalità di
presentazione dei risultati che vengono proposti
nelle aule di giustizia.
-Sentenza Daubert (U.S.A.-1993)
La casa farmaceutica Merrel produceva un farmaco
antidolorifico che, assunto in gravidanza, avrebbe
causato la malformazione di un neonato.
La perizia farmacologica trova nessi di causalità e la
ditta viene condannata ad un lauto risarcimento
Successivamente la difesa dimostra che su 10.000
donne che hanno assunto il medesimo farmaco in
gravidanza, l’incidenza di malformazioni è stata
INFERIORE alla media nazionale.
-Sentenza Daubert (Corte Suprema U.S.A.-1993)
Si scatena un dibattito vastissimo sul valore
‘scientifico’ delle perizie tecniche, risolto
modificando i CRITERI per ammettere in corte una
perizia con il crisma della ‘scientificità’, che dovrà
essere elaborata con un metodo che soddisfi i
requisiti seguenti:
1. Peer reviewed
2.“falsificazionismo” (alla Popper)
3. Produrre un error rate…
4. Agreement della comunità scientifica
-Sentenza Daubert (Corte Suprema U.S.A.-1993)
Rispetto ai criteri precedenti, risalenti agli anni ’20,
la vera novità è l’introduzione dei concetti di
•METODO FALSIFICABILE
•QUANTIFICAZIONE DELL’ERRORE
Tuttavia gli americani non chiariscono ‘come’ l’errore
debba essere espresso
-Raccomandazioni ENFSI (>1997)
“…utilizzare likelihood ratio e approccio statistico
Bayesiano”
Il dubbio è fastidioso, ma la
certezza è degli imbecilli (Voltaire)
SCIENTIFICO ≠ ESATTO
Ruolo del consulente/perito nel
dibattimento
-comunicazione con le parti nella
cross-examination-
-Esistono 3 tipologie comportamenti di ‘esperti’ in
dibattimento
1. IL ‘DURO’ (ESISTE LA CERTEZZA E SI DIFENDE A
TUTTI I COSTI)
2. Il ‘DIPLOMATICO’ (TUTTO E’ POSSIBILE E
NEGOZIABILE)
3. LO ‘SCIENTIFICO’ (QUANTIFICA LA DELIMITAZIONE
DEL CAMPO DI INDETERMINAZIONE)
Le prime 2 generano confusione comunicativa e potenziale
sfiducia nel sistema, il primo perché crede che esprimere
un dubbio significhi non essere ‘bravo’, il secondo perché
ammette dubbi anche laddove non dovrebbero esserci
VALENZA DELLA PROVA
SCIENTIFICA
(FONICA)
La prova in Italia si forma in dibattimento, un tipo di
giudice domanda all’esperto:
‘ci dica, è lui o non è lui?’
Il vecchio retaggio culturale di alcuni giudici non
prevede altre opzioni e, inoltre, è riposta una cieca
fiducia nell’esame tecnico
Un altro tipo di giudice, con un po’ più di cultura
scientifica potrebbe chiedere al perito:
‘con quale percentuale?’
In questi casi, tuttavia, la richiesta può dar luogo a
incomprensioni drammatiche o nascondere una
sfiducia nell’esame scientifico
Il problema è che l’esperto utilizza un diverso
linguaggio e proviene da un opposto contesto
culturale rispetto al Magistrato. La domanda, infatti,
è terribilmente equivoca:
‘percentuale… di che cosa?’
Il magistrato implicitamente
colpevolezza’ P (C|E)
intende
‘percentuale
di
Il tecnico invece, che può solamente lavorare sui reperti che ha
avuto a disposizione, non conosce gli esiti delle indagini di
Polizia e, in buona fede, potrebbe intendere ‘percentuale di
positività dell’esame’ P (E|C)
ESEMPIO
Se si trattasse di una traccia ematica, con solo esame A-B-0 e
fattore Rh, trovando un confronto positivo anonimo-colpevole
(es gruppo 0 Rh +) il biologo potrebbe asserire ‘correttamente’
100% signor giudice!
Ma, ovviamente, questa percentuale P(E|C) non dice che il
soggetto sia colpevole al 100%, poiché ‘0+’ è molto comune !!
Linee guida
ENFSI
-2011-
U.S.A.
Codifica del
ruolo
dell’esperto
Legge
101/11
L’identificazione a scopo forense
Quale sia il metodo utilizzato è fondamentale che l’esperto
possa quantificare l‘errore’ dell’identificazione.
Ma esistono due tipi di ‘errore’
I
Errore sulla compatibilità
(quanto i dati dei due soggetti sono sovrapponibili?)
II
Errore di falsa identificazione
(probabilità che un’altra persona, innocente, possa
presentare gli stessi dati)
Esempio sull’errore di tipo I
‘riconoscimento di persona sulla base dell’altezza
estrapolata da un video’
Il perito, con metodo sofisticato, asserisce che il
rapinatore è alto cm 185, senza quantificare l’errore,
confidando nella bontà del suo metodo (esperto
tipologia ‘1’).
Un eventuale indagato alto 187 cm sarebbe
automaticamente escluso
Esempio sull’errore di tipo I
‘riconoscimento di persona sulla base dell’altezza
estrapolata da un video’
Un altro perito, magari con lo stesso metodo,
conscio che le situazioni dell’immagine e della
postura possono creare distorsioni, conclude che
‘verosimilmente’ è alto 185 cm, senza quantificare il
margine di errore (esperto tipo ‘2’)
L’ indagato alto 187 cm sarebbe sicuramente
compreso, ma anche uno alto 180 cm o, magari,
177 cm…
Qual è il limite di tolleranza?
Esempio sull’errore di tipo I
‘riconoscimento di persona sulla base dell’altezza
estrapolata da un video’
Qual è il limite di tolleranza?
La ‘tolleranza’ non puo’ essere fornita ‘ad
occhio’, ma bisognerebbe utilizzare uno
strumento statistico adeguato (es. Analisi
della Varianza)
Se è data soggettivamente bisognerebbe
avere l’onestà di esplicitarlo
L’identificazione a scopo forense
Le direttive ENFSI prevedono un approccio Bayesiano,
utilizzando il concetto di LIKELIHOOD RATIO (Lr) o
RAPPORTO DI VEROSIMIGLIANZA
P(C|E)
P(E|C) P(C)
P(C|E)
P(E|C) P(C)
Prior odds
Posterior
Odds
Likelihood Ratio
Introducendo la Lr si esce dal dualismo
si-no
consentendo un’infinità di ‘toni di
grigio’ indispensabili come strumento
decisionale soprattutto laddove l’esame dia risultati ‘deboli’
Si interpreta come ‘supporto tecnico
all’ipotesi iniziale (di colpevolezza)’
L’identificazione a scopo forense
Il compito dell’esperto è fornire al giudice la Lr
P(E|C)
Probabilità che il soggetto ‘C’ abbia lasciato la traccia ‘E’
Lr =
P(E|C) Probabilità che un soggetto diverso da ‘C’ abbia lasciato
la traccia ‘E’
• Lr è un numero puro che può oscillare tra 0
(assoluta estraneità) e + ∞ (identificazione certa).
• Se Lr = 1 l’esame è INCONCLUSIVO
L’identificazione a scopo forense
Il compito dell’esperto è fornire al giudice la Lr
P(E|C)
Probabilità che il soggetto ‘C’ abbia lasciato la traccia ‘E’
Lr =
P(E|C) Probabilità che un soggetto diverso da ‘C’ abbia lasciato
la traccia ‘E’
Sono sufficienti i set di dati misurati
E’ necessario poter disporre di un database rappresentativo della popolazione e di un modello
matematico descrittivo del fenomeno
Importante considerare gli effetti delle probabilità a priori,
solitamente non a disposizione dell’ esperto.
Il solo valore della Lr non è esaustivo se non si conoscono
le probabilità a priori
L’esperto non può sostituirsi al giudice !
P(C|E)
P(C|E)
Lr
P(C)
P(C)
Prior odds
La prova fonica dovrebbe fornire al
giudice la Lr (Evidence strenghtness)
In altre parole sono 2 i risultati da
presentare:
a)C’è compatibilità tra le voci?
b)Quante altre persone
potrebbero dare lo stesso livello
di compatibilità?
La decisione finale dovrà
considerare i 2 risultati alla
luce delle probabilità a priori:
Quale dimensione ha il gruppo
dei possibili autori del reato?
Solo avendo a disposizione questi
3 elementi (2 tecnici ed 1
‘investigativo’) sarà possibile
operare una decisione
PARTE II
Metodi per
il riconoscimento del parlatore
Il riconoscimento del parlatore
(Speaker Identification)
Rapimenti
Estorsioni
Droga
Rivendicazioni
di Attentati
Stalking
Ingiurie
Essendo la natura dell’esame tipicamente
comparativa, è necessario disporre di
idoneo
materiale
di
confronto:
Conversazioni/telefonate di sicura provenienza e
attribuzione
oppure
Si procede all’acquisizione di un saggio fonico
PRINCIPALI PROBLEMI
NELL’ANALISI DELLE VOCI:
• Microvariabilità temporale della voce
• Variabilità di lungo termine
• Trattazione matematica dei dati
• Effetti del canale di trasmissione
• Disturbi (rapporto s/n)
• Quantità del materiale anonimo
• Disponibilità del materiale del saggio fonico
• Voci femminili
• Lingue eterogenee
Il processo di produzione fonatorio crea due
categorie di ‘reperti’ utili alle indagini…
LA VOCE
IL MESSAGGIO
…ne derivano due filoni metodologici per
l’identificazione :
ANALISI FONETICO-LINGUISTICHE
(soggettive, qualitative)
- fonetiche, lessicali, prosodiche…
ANALISI STRUMENTALI
(oggettive, quantitative)
-analisi delle frequenze prodotte nella fonazione
(vibrazione corde vocali e frequenze di risonanza del cavo
orale)
La SOLUZIONE IDEALE è
cercare un’integrazione tra
più metodologie
Nel mondo sono tipicamente impiegati 3 metodi
per il riconoscimento del parlatore
1. Linguistico-fonetico
2. Semi-automatico
3. Totalmente automatico
Metodo Linguistico-Fonetico
Storicamente è stato il primo ad apparire
Richiede un notevole background di
carattere fonetico
E’ fortemente dipendente dalla lingua
Richiede grandi quantità di materiale
audio
Metodo Linguistico-Fonetico
Le analisi si dividono in:
1. Prove d’ascolto
2. Esami fonetici
3. Esami lessicali
4. Esami prosodici
1. Prove d’ascolto
Sono basate sulla memoria a breve termine
Si costruisce un file, contenente sia le frasi
anonime che le medesime pronunciate dal
sospettato, poi si procede all’ascolto,
ripetendo l’operazione in tempi diversi
2. Esami fonetici
Si ricercano gli elementi caratterizzanti che differiscono
dalla pronuncia corretta nazionale
ES. TRE
 tré, trè, tce...
ES. NOVE  nòve, nóve…
L’insieme dei risultati darà indicazioni sulla regione linguistica
di provenienza del parlatore, tuttavia il riscontro di particolari
difetti fornisce importanti elementi di riconoscimento individuale.
Per questo scopo le consonanti più sensibili sono:
‘R’, ‘S’, ‘C’, ‘G’, ‘Z’
3. Esami lessicali
Lingua
Dialetto
Forniscono indicazioni sulla regione linguistica di
provenienza del parlatore
Terminologia specifica (gergo)
Padronanza della lingua
Aiutano ad individuare l’ambiente
socio-culturale e scolastico-professionale
Terminologia preferenziale (ripetizioni)
Terminologia personale
Forniscono informazioni legate alle abitudini
individuali
TEL. 670 sillabe
secondi vel.
eh, e come si fa? 6
0,66
ma siete a posto o no?
7
0,88
allora faccia'.. e facciamo
15
'na1,61
cosa…
adesso vedo se posso…
8
1,06
fare scendere io
6
0,74
ah ho capito
5
0,58
ah va bene, va bene 8dai
0,93
allora mi chiami tu? 7
0,79
Totali tel 670
62
7,25
dev. st.
s v. medio
9,09
7,95
9,32
7,55
8,11
8,62
8,6
8,86
8,55
4. Esami prosodici
Inflessione/cadenza
Danno indicazioni sulla regione linguistica di provenienza de
0,6
0,21
parlatore
Sospettatosillabe
secondi vel.
volevo sentir da te 7
0,73
Adesso vado a sentire
13 com'è1,44
la
ma mi sembra troppo
6
0,83
spetta facciamo 'na11
cosa facciamo
1,31
20
adesso vedo se casomai
16
posso…
2,01
18
ah ho capito, ho capito
9
1,02
16
allora mi chiami tu? 7
0,75
14
Di solito quando ci 17
son stati 1,97
i Cara..
12
sia in una maniera 12
che è la mia
1,55m..
10
o nel bene o nel male
8
0,92
8
primo processo che13abbiamo
1,51
fatto..
6
dopo tanti anni vengono
13 a scoprire
41,62
Totali CURCI
132
15,66
2
dev. st.
9,59
9,03
7,23
8,4
7,96
8,82
9,33
8,63
7,74
8,7
8,61
8,02
8,43
s v. medio
percentuali relative
Pause (vuote e piene) - Lunghezza consonanti plosive (p,t,k)
Sono elementi individuali misurabili strumentalmente
Velocità di locuzione
E’ il parametro più utile a fini
forensi,
per misu0,68
0,2
rabilità, stabilità e trattabilità statistica
V
0
4-4,49 4,5-5 5,01- 5,51-6 6-6,5 6,51-7 7,01- 7,51-8 8,01- 8,51-9
5,5
7,5
8,5
velocità medie della popolazione
>9
Metodo Linguistico-Fonetico: considerazioni
Alcuni parametri sono ‘robusti’ rispetto
agli effetti del canale e al rapporto
segnale/rumore
Richiede giorni per un esame completo
E’ complicato creare database
Le risposte sono generalmente qualitative,
le valutazioni soggettive
L’orecchio è uno strumento attendibile?
140
120
100
80
60
40
20
10
K
20
K
5K
2K
1K
10
0
20
0
50
0
50
0
20
db
Hz
GRAFICO DELLA SENSIBILITA’
DELL’ORECCHIO UMANO
La percezione è utile?
1. Tutti abbiamo forme di percezione
2. La percezione solitamente è PARZIALE
3. La verità può essere AMBIGUA
4. La verità può essere UNIVOCA ma la
nostra percezione porta a conclusioni
ERRATE
Esempio di realtà AMBIGUA
Esempio di realtà UNIVOCA
Il riconoscimento del parlatoreesami ‘oggettivi’
(Speaker Identification)
La voce è un suono complesso perché è dato dalla
combinazione di tre effetti:
1. La vibrazione delle corde vocali
(genera la Frequenza Fondamentale)
2. Il rumore prodotto nella fonazione
3. Il transito attraverso il tratto vocalico
(genera le Frequenze Formanti)
- Il segnale finale è dato dalla CONVOLUZIONE del segnale
entrante x(t) con il filtro vocale h(t)
g(t)=x(t)h(t)
- Lo spettro del segnale finale è dato dal PRODOTTO degli
spettri dei segnali x(t) e h(t)
Modello
ESEMPI OPERATIVI
Segnale relativo ad una ‘a’
-Spettro-
Per essere leggibile, uno spettro necessita dell’applicazione di algoritmi specifici (CEPSTRUM o
LPC) che rendano possibile la ricostruzione delle
componenti dovute al tratto vocalico
Il sistema indica le misurazioni delle
risonanze: le FORMANTI
METODI di tipo SEMI - AUTOMATICO
(IDEM, SMART, DIALECT, SIVE...)
Sistemi computerizzati che richiedono
l’interazione uomo-macchina
Alcune task sono automatiche:
•Stima rapporto s/n
•Estrazione di parametri (pitch, formanti...)
•Modelli matematici intra-interparlatore (GMM,
Distances, Matrix...)
•Analisi statistiche e decisionali (Tests)
METODI SEMIAUTOMATICI
Attività ‘manuali’ lasciate all’operatore:
•Selezione dei tratti da misurare (editing)
•Controllo delle misure
(correttezza, selezione delle vocali, deleting...)
•Selezione dei parametri decisionali
(livello di confidenza, variabili e database... )
•Controllo finale
Il sistema consente una rappresentazione
bidimensionale delle misure effettuate
Al termine si effettua sia il test di compatibilità (es.
c2) che il calcolo della probabilità di falsa
identificazione (integrazione Montecarlo)
Equivalenza verbale - LR
Metodi Totalmente automatici
Lavorano nel campo delle frequenze e del
tempo (parametri MFCC e DMFCC)
Caratteristiche principali:
-velocità
-sensibilità al canale
-sensibilità al rapporto segnale/rumore
-discreta robustezza sulla lingua
Metodi Totalmente automatici
Rappresentano le più moderne opportunità
Tutti i passi sono automatici:
-Estrazione dei parametri
-trattamento statistico e catalogazione
-calcolo della likelihood ratio
L’operatore deve solo:
-inserire i tratti di segnale nel sistema
-scegliere il database di riferimento
Metodi Totalmente automatici
Il trattamento statistico prevede il computo della
LIKELIHOOD RATIO secondo un modello
continuo, la soglia è variabile caso per caso.
METODI A CONFRONTO
-vincoli
-robustezza
-velocità
-parametri coinvolti
-validità in dibattimento
-performance
Rapporto segnale/rumore - vincoli
Foneticolinguistici
~ 10 dB
Semi
Automatici
Totalmente
Automatici
~ 12 dB
~ 17 dB
Vincoli sulla durata
Fonetico
Linguistici
Semi
Automatici
Tot.
Automatic
?? (> 5 min)
~ 12”
~ 30” per l’anonimo
~ 2’ per il sospettato
Robustezza sul canale
Foneticolinguistici
+++
Semi
Automatici
++/+++
Tot
Automatici
-
Robustezza sulla lingua
(opeatore non madrelingua)
Fonetico
Linguistici
-/+
Semi
Automatic
+/++
Tot.
Automatici
++/+++
(dipende dal grado di con.)
(dipende dalla lingua)
Risposte
Foneticolinguistici
Scala verbale – Soggettiva/qualitativa
Semi
Automatici
P.F.A./P.F.R. o Lr
Tot.
Automatici
Lr / Tippet Plot
Performance
Foneticolinguistici
Semi
Automatici
Totalmente
Automatici
Alta ??
(non esiste una reale validazione)
EER < 1 %
EER 1%-15%
(dipende dal tipo di canale)
E’ accettato in dibattimento ?
Foneticolinguistici
Semi
Automatic
Full
Automatic
generalmente sì
(non in tutti gli Stati degli U.S.A. - caso
Daubert)
Sì
??
(Sono da considerarsi alla stregua di
AFIS e IBIS, cioè utili per per analisi
preventive)
CONCLUSIONI
PARTE II
Nessuno dei 3 metodi può definirsi ‘il migliore’ in
senso assoluto, avendo differenti limiti
La richiesta dominante delle Scienze Forensi è
‘fornire risposte quantitative’
I sistemi linguistico-fonetico, pur qualitativi, sono
però finora accettati quasi ovunque
I metodi Semi-automatici appaiono i più versatili,
potendo combinarsi con le variabili time-dependent
usate dai fonetisti
CONCLUSIONI
PARTE II
L’accertamento completo dovrebbe essere condotto
con la combinazione di tutte le tecniche (il ‘metodo
dei metodi’) in modo da poter garantire
applicabilità e performance superiori in qualsiasi
condizione.
PARTE III
Casi particolari, limitazioni ecc...
1. Segnale ‘saturo’
Le creste del segnale appaiono ‘tagliate’
per oltre 1 millisecondo
1. Segnale ‘saturo’
CONSEGUENZE:
a) Perdita di intelligibilità (analisi
linguistica ridotta)
b) Impossibilità di misurare le frequenze
superiori a 1000 Hz (è compromesso
l’esame strumentale)
2. Voci femminili
COMPLICAZIONI DOVUTE A:
a) Frequenza fondamentale molto alta
b) Scarsa casistica
VOCE MASCHILE
VOCE FEMMINILE
2. Voci femminili
CONSEGUENZE:
a) Difficoltà a misurare le formanti
b) Impossibilità di misurare la p.f.i.
(analisi strumentale meno attendibile)
3. Voci straniere
COMPLICAZIONI:
a) Difficoltà alla comprensione del
messaggio verbale
b) Difficoltà a decifrare la caratteristiche
fonetico-linguistiche
c) Difficoltà ad isolare le vocali per le
misure (dipende dal tipo di lingua)
d) Problema di applicabilità del modello
statistico
3. Voci straniere
CONSEGUENZE
a) Esame fonetico-linguistico completo
possibile solo da madrelingua, limitato
o impossibile altrimenti
b) Esame strumentale difficoltoso con
rischio di utilizzare vocali non
omogenee
c) Calcolo della p.f.i. impreciso e
condizionato dal tipo di lingua/etnia
3. Voci straniere
CASI PARTICOLARI
a) Le lingue NEO-LATINE e quelle ad isocronia
SILLABICA (in particolare spagnolo, rumeno,
albanese) ben si prestano all’individuazione e alla
misura delle vocali, a differenza di quelle ad isocronia
ACCENTUALE (es. inglese)
b) Non solo gli esami linguistici, ma anche quelli
strumentali andrebbero condotti in collaborazione con
un madrelingua
4
voce alterata
-Caso Reale-
Il caso
Svizzera, Canton Ticino
Un ragazzo uccide la nonna con un macete e aggredisce
il padre. Viene arrestato immediatamente.
Nella camera del ragazzo viene trovato un video di 6
minuti nel quale un soggetto maschile, totalmente
incappucciato, con un macete in mano, legge un discorso
delirante, con voce alterata, nel quale spiega che bisogna
compiere ‘grandi azioni’ prima di suicidarsi.
Il P.M. vuole sapere se la voce è dell’assassino oppure
sia un’azione di plagio sul ragazzo
Il caso
La Polizia Scientifica del Canton Ticino non opera
comparazioni di voce
L’Istituto Centrale di Zurigo non è in grado di trattare il
caso per via della lingua e perché, utilizzando sistemi
automatici, la voce alterata rappresenta un limite.
Tuttavia la voce naturale del ragazzo, all’ascolto, appare
molto simile.
Metodo di lavoro
Effettuazione del saggio fonico secondo le modalità
standard
Approccio linguistico (laddove possibile)
Approccio strumentale (laddove possibile)
Approccio linguistico
Il parlatore anonimo si esprime con accento ticinese
(simile al lombardo), mostrando una chiara ‘r’ uvulare.
Nel messaggio, tuttavia, si evidenziano 6 parole
pronunciate con accento differente da quello locale:
dèa – Atèna – appartèngo – sènza – intèndere - sèmpre
La dimostrazione che l’accento fosse effettivamente
diverso nella popolazione ticinese è stata ottenuta
intervistando una quindicina di persone del luogo,
invitate a leggere frasi contenenti queste parole.
Il saggio fonico
Si effettua in carcere, in modalità ortofonica, e si
propone al sospettato, dopo un colloquio informale, di
ripetere frasi contenenti le parole evidenziate, per
verificarne le caratteristiche fonetiche, nonché di
rileggere il messaggio pronunciato nel video
Approccio strumentale
Dalla voce del sospettato e dell’anonimo sono stati
estratti 7-8 campioni per ogni vocale e da questi sono
state misurate le formanti.
Poiché la F0 (frequenza fondamentale) è indubbiamente
modificata dall’alterazione volontaria, non è stata presa
in considerazione (nel saggio la voce era naturale)
L’esito del test è stato sorprendentemente positivo.
Conclusioni
Quando il materiale è abbondante, anche a fronte di
alterazioni volontarie nel parlato, è possibile ottenere
risultati da esami di tipo linguistico
Il tipo di alterazione (strozzatura della glottide) ha
riflessi sulla F0 ma non sulle formanti