3. STATISTICA A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007 LE SORGENTI DI INFORMAZIONE Una sorgente di informazione invia messaggi che sono processi aleatori dotati di variabilità. La variabilità è la condizione propria del processo. L’incertezza è invece lo stato soggettivo di colui che riceve il messaggio. La sorgente è stazionaria se ha proprietà probabilistiche stabili nel tempo ed è ergodica se le sue leggi possono essere ricavate mediante osservazioni ripetute dei suoi messaggi che (se) si ripetono nel tempo. Esperimenti e misure si possono programmare proprio allo scopo di conoscere le proprietà statistiche delle sorgenti. Il messaggio ricevuto è sostanzialmente una misura il cui risultato è a sua volta una variabile con proprietà aleatorie. DISTRIBUZIONI PROBABILISTICHE E MOMENTI Una sorgente di informazione è definita, come già detto, quando sono noti gli alfabeti e le leggi probabilistiche che ne governano i segnali, simboli e gli aggregati di simboli. Le leggi probabilistiche sono definite dalle probabilità dei segnali e dei simboli emessi. Condizione necessaria e sufficiente per conoscere le funzioni di distribuzione di probabilità della sorgente è conoscerne i parametri che sono tutti i momenti di qualsiasi ordine, definiti come valori attesi della serie delle potenze successive degli scarti: M1 = m = E(x); M = E(x-m) MODELLI STATISTICI Si definisce modello statistico di un processo aleatorio la collezione di tutte le p.d.f. necessarie e sufficienti per definirne le proprietà statistiche; Le p.d.f. possono essere stimate a partire da opportuni depositi di dati di processo (Database), tanto con approcci parametrici, che richiedono la stima dei parametri di funzioni predefinite, un vettore parametrico , quanto non parametrici (distribution free); Mediante l’approccio non parametrico o distribution free, lo sperimentatore dispone di una pdf stimata direttamente a partire dai dati campionari. Tale approccio si complica al crescere della dimensione p del vettore delle misure. STATISTICHE Definiamo statistica una qualsiasi funzione dei dati ricevuti/misurati. Nell’approccio bayesiano ogni statistica è una variabile aleatoria essa stessa, regolata da una propria pdf che in alcuni casi può essere derivata dalla pdf dei dati, posto che sia nota. Sono esempi di statistiche le medie, le varianze, le distanze da un target etc. La legge che regola i dati, una pdf nel caso continuo, può essere in alcuni casi espressa mediante una funzione di una stringa o vettore parametrico ; 1, 2, … k. Come si è visto, per le distribuzioni normali monovariate si tratta di due soli parametri m e s2, posizione (displacement) e varianza. MEDIA PARAMETRI E MOMENTI DEL I ORDINE La media campionaria su n dati: Lo scarto dalla media che ha media nulla: La mediana di un insieme di n dati ordinati in ordine di grandezza crescente è il valore centrale dei dati, se il numero di dati è dispari, o la media aritmetica dei due valori centrali, se il numero dei dati è pari. La moda è il valore o la classe a cui corrisponde la massima frequenza o la massima probabilità. I massimi relativi possono essere più d’uno. VARIANZA PARAMETRI E MOMENTI DEL II ORDINE La varianza campionaria su n dati: La deviazione standard campionaria: Sono detti indici di dispersione o indici di variabilità, perché misurano la dispersione dei dati attorno alla media. La varianza è tanto più grande quanto più i dati si discostano dalla media. I valori di s e s2, poiché misurano l’effettiva variazione assoluta presente in un insieme di dati, dipendono dall’unità di misura dei dati. PARAMETRI E MOMENTI DI ORDINE SUPERIORE La asimmetria (skewness) dei dati è il valore campionario del momento di terzo ordine. Un valore positivo indica una distribuzione in cui i valori sono raggruppati nel range dei valori bassi con una lunga coda che si estende verso I valori maggiori. Un valore negativo indica la situazione opposta. Il momento campionario del quarto ordine misura la curtosi (flatness) campionaria dei dati. Una curtosi positiva indica che ci sono piu` valori agli estremi della distribuzione di quanto aspettato. Una curtosi negativa indica ci sono meno avlori agli estremi della distribuzione di quanto aspettato STATISTICHE SUFFICIENTI Una statistica di un campione t(x), come media, varianza, momenti, ricavata da una sequenza campionaria x, è detta “sufficiente” per se la funzione di verosimiglianza è fattorizzabile: L( |x) = g(t(x),)h(x); h non negativa. Si definisce funzione di score, s: s(x;) = l / dove E(s)=0 La matrice di covarianza di s, E(ss’), è la “Matrice informativa di Fisher”, F = E(2l/2). Vale la diseguaglianza di Cramér-Rao: E(t,t’) F-1 IL CASO NORMALE Riprendiamo il modello statistico associato ad un campione di dati aleatori normale N(m, σ2). In questo caso la verosimiglianza è fattorizzabile: e quindi estratti i dati e quindi noti i valori assunti dalle statistiche: Syi , Syi2 la verosimiglianza è univocamente determinata. Si tratta dunque di statistiche congiuntamente sufficienti. USO DELLE STATISTICHE SUFFICIENTI Effettuato un esperimento statistico con l’estrazione di un campione X cerchiamo le statistiche t tali che il calcolo del valore da esse assunto sia del tutto equivalente ai fini dell’inferenza su alla conoscenza di tutto il campione x. Dato un modello statistico, una statistica t(x) viene detta sufficiente per se assume lo stesso valore in corrispondenza di campioni diversi solamente quando essi hanno verosimiglianze proporzionali. Data una statistica sufficiente t abbiamo verosimiglianze diverse solo se t assume valori diversi. Il valore assunto da una statistica sufficiente sintetizza quindi tutta l’informazione che c‘è nell’intero campione. PIANIFICAZIONE DEGLI ESPERIMENTI Il concetto di popolazione in statistica si discosta dunque dal senso comune. La popolazione è un insieme reale di soggetti con caratteristiche comuni, in statistica è invece l’insieme di tutte le misure possibili di un determinato parametro (multivariato, vettoriale) regolato da una comune legge probabilistica. Quando si tratta di un insieme molto grande può non essere possibile né economicamente conveniente raccogliere tutti i dati. Si esegue in tal caso un esperimento consistente nell’estrazione di un campione che costituirà un sottoinsieme di dimensioni trattabili della popolazione. CAMPIONAMENTO STATISTICO L’informazione viene raccolta a campione per: risorse limitate, alto costo del campionamento; pochi dati disponibili per ragioni fisiche; impossibilità di compiere il campionamento perché distrugge l’oggetto in esame o per difficoltà di natura sociale. Si può contare, il più delle volte, su un campione composto da un numero limitato di dati, e si trae da essi per inferenza statistica quanto serve per sviluppare un esperimento. La teoria dei campioni è lo studio delle proprietà di una popolazione mediante i campioni che la costituiscono. ESTRAZIONE DEI DATI La via migliore per evitare di estrarre campioni non rappresentativi di una popolazione è il campionamento casuale, nel quale deve essere identica la probabilità di estrazione di ciascun dato. Ciò richiede che il campione delle misure X sia costituito da vettori X indipendenti ed identicamente distribuiti (iid). Le fasi del campionamento sono: Definizione della popolazione Specificazione del quadro sperimentale Definizione del metodo di campionamento Determinazione della dimensione del campione Predisposizione logistica della misura Effettuazione della misura Esame dei dati. GRADI DI LIBERTA’ Dato un campione di dimensione n ed un set di k statistiche, il massimo numero di elementi del campione liberi di variare senza alterare le k statistiche già calcolate è il numero dei gradi di libertà, dgf, del campione stesso. Si tratta del numero di informazioni indipendenti che fanno il campione. Dimensionare i dgf di un campione è questione delicata sulla quale operano esigenze contrastanti, l’economia di risorse e di tempo da un lato, la disponibilità di buoni dati di qualità effettivamente indipendenti dall’altro, l’opportunità di trattare grandi campioni per avere buone inferenze e buone stime dall’altro ancora. DIMENSIONE DEL CAMPIONE, GRADI DI LIBERTA’ Per dimensionare un esperimento occorre dare una figura di merito. Si può trattare di limiti di disponibilità, di spesa o di tempo. Se si assegna viceversa una performance di possono calcolare i dgf necessari. Nel più classico dei test sulla media di una popolazione sia a l’errore di I specie, di falsa reiezione dell’ipotesi nulla x=0 rispetto all’ipotesi alternativa m = zas, e sia 1-b la potenza del test, cioè sia b l’errore massimo ammesso di falsa accettazione, di II specie. Si dimostra che (F è la cumulativa normale): IL PARLATORE Dobbiamo supporre che il parlatore sia una sorgente di informazione stazionaria ed ergodica poiché il campione può essere formato solo con dati estratti in tempi successivi. L’ipotesi ha delle limitazioni evidenti. Le misure (formantiche, etc.) accessibili costituiscono il campione di una popolazione di vettori acustici mediante i quali eseguiamo inferenze sui parametri della pdf del parlatore (FUB SPREAD) o sulla intera distribuzione (Rossi). Nell’approccio FUB si suppone per di più che i parametri di secondo ordine della pdf siano indipendenti dal parlatore. L’inferenza campionaria si semplifica alla sola determinazione della posizione nello spazio (displacement) del valore medio. LA POPOLAZIONE DEI PARLATORI Vedremo che nei processi di decisione occorre il modello statistico della o delle popolazioni di appartenenza dei parlatori (ad esempio i maschi adulti italiani. La definizione di popolazione di appartenenza (taluni usano la denominazione di riferimento) è questione delicata, controversa e causa di errori anche gravi. Basti dire che i parametri delle probabilità di errore sono direttamente dipendenti dal modello di tale popolazione. Alle proprietà statistiche della popolazione dei parlatori si perviene ancora una volta per campionamento, ma con procedimenti reiterati di accumulazione progressiva nei quali è fondamentale la qualità delle procedure. INFERENZE Dal campione intendiamo ricavare informazioni e statistiche che ci servono per il processo decisionale mediante operazioni denominate inferenze. Tipicamente ci attendiamo dall’inferenza informazioni sulla distribuzione di probabilità dei dati o sui suoi momenti di vario ordine, seguendo approcci distribution-free o parametrici (a distribuzione data). Nell’approccio FUB IDEM-SPREAD le distribuzioni sono supposte essere multivariate normali e l’inferenza viene condotta sulle matrici dei momenti del primo e del secondo ordine, medie e covarianze. STIME DI MASSIMA VEROSIMIGLIANZA Un parametro incognito di una p.d.f. può essere stimato a partire da un campione di dati x. Le stime di massima verosimiglianza di un vettore parametrico si ottengono dalla soluzione del sistema S=0 e godono della proprietà di essere asintoticamente normalmente distribuite con media (stime unbiased) e varianza (nF)-1 (stime consistenti). In base alla diseguaglianza di Cramér-Rao le stime MLE sono a varianza minima. Per la distribuzione normale, p=1, si ha: m = x = 1/n Sixi s2 = 1/n Si(xi-x)2 LE MATRICI DEI DATI FORMANTICI Struttura delle matrici di dati X = (xi,j,k) FOGLIO DATI dello SPEAKER k-esimo Sample1 Sample2 FF0a x11k x12k x1jk FF1a x21k x22k x2jk FF2a x31k x32k x2jk FF3a x41k x42k x2jk FF0e x51k x52k x5jk … … … … FF3u x20 1k x20 2k x20 jk … Sample j PROPRIETA’ STATISTICHE DEI DATI I dati fonoacustici derivano da campagne sperimentali di acquisizione ed elaborazione dati con tecniche di “Digital Signal Processing”; La qualità dei dati deve essere assicurata. Il trattamento statistico non può compensare la mancanza di qualità dei dati se non in maniera marginale (filtraggio degli outliers, correzione di alcuni tipi di errori, etc …); Le misure devono essere statisticamente indipendenti. Un errore da non fare e’ una doppia misura formantica sulla stessa vocale; PROPRIETA’ STATISTICHE DEI DATI Le funzioni di densità di probabilità (p.d.f.) dei processi coinvolti nell’esperimento devono essere note, ovvero identificate e ricavata dai dati stessi. Esse sono funzioni multivariate, continue e differenziabili, che, integrate su un dominio p-dimensionale D, danno la probabilità che il campione cada in quel dominio. Deve in particolare essere nota e statisticamente definita la popolazione di appartenenza delle voci, ad esempio “i maschi adulti italiani”. La distribuzione di probabilità della popolazione deve quindi essere nota e verificata. PROPRIETA’ STATISTICHE DEI DATI Si fa l’ipotesi che l’emissione vocale sia, con buona approssimazione, un processo aleatorio e che i parametri acustici, frutto di misure spettrali o temporali affidabili e ripetibili, siano variabili aleatorie continue regolari, “well behaving”, dotate di funzioni di densità di probabilità; L’ipotesi accreditata dal progetto FUB IDEMSPREAD, adeguatamente confortata dai risultati sperimentali, e’ che i dati siano regolati dafunzioni di distribuzione multivariate normali; In alcuni casi si dovrà ricorrere all’ipotesi che la p.d.f. di parlatori diversi si differenzi solo per il momento del primo ordine (displacement factor), media o centroide. LE STATISTICHE: MEDIE CAMPIONARIE Matrice delle medie dei parlatori: Xk = (xik) foglio k-esimo (k = 1, … K) FF0a FF1a FF3u 1/n1kSj x1jk, 1/n2k Sj x2jk, … 1/npk Sj xp,j,k Vettore media delle medie: X = (xi) FF0a FF1a FF3u 1/KSk x*1k , 1/K Sk x*2k, … 1/K Sk x*pk COVARIANZE E CORRELAZIONI CAMPIONARIE Matrice delle covarianze dei parlatori Wk = nkSk/(nk -1) foglio k-esimo (p * p), nik= nk,i wii’k = 1/(nk -1) Sj (xijk xi’jk - x*ik x*i’k) Matrice delle covarianze “pooled” W, (N= Sk nk ) W = 1/(N - K) Sk (nk -1) Wk Matrice delle correlazioni ii’ = wii’/(wii’*wii’)½ Varianza generalizzata = Det (W) MANOVA, ANALISI MULTIVARIATA DELLA VARIANZA Matrice delle covarianze totali del campione, T (N-1) T = Sk Sj (xjk - x) (xjk - x)’ Matrice delle covarianze intraparlatori “pooled”, W (N - K) W = Sk (nk -1) Wk Matrice delle covarianze della popolazione, P (K-1) P = Sk nk(x*k - x**) (x*k - x**)’ Identità MANOVA (N-1) T = (N - K) W + (K-1) P LE COMPONENTI PRINCIPALI Sussiste il Teorema: “Se x ha una distribuzione multivariata normale N(m;S), la y = (y1, y2, …, yp) = S-1/2(x-m) è costituita da p variabili indipendenti distribuite come N(0,1)”. Di analoga proprietà godono le “Componenti principali” z = ’(x-m), dove la matrice diagonalizza la matrice di covarianza: S’ = . La matrice diagonale contiene le varianze delle p componenti principali che hanno distribuzione N(0,i). La trasformazione ruota e centra sugli assi coordinati ed ordina nel senso delle varianze decrescenti i punti di una popolazione avente la distribuzione N(m;S). FORME QUADRATICHE Il kernel della p.d.f. Multivariata Normale è una forma quadratica che ha le caratteristiche geometriche di una distanza normalizzata. Per ogni misura x si definisce una f.q.: Fq = (x - m) S-1 (x - m)’ che gode di proprietà interessanti. Tra esse: Se x~N(m;S), Fq(x, m) ~ 2p . Fq è invariante per ogni operazione lineare di traslazione o rotazione in Sp . Fq = cost è l’equazione in Sp delle sezioni isoprobabili si una p.d.f. Multivariata Normale Np. LA DISTANZA DI MAHALANOBIS In analogia formale con Fq, indipendentemente dalla distribuzione di probabilità del dato, si definisce “distanza di Mahalanobis” tra due punti in uno spazio Sp con matrice di normalizzazione S come: D2(x1,x2) = (x1 - x2) S-1 (x1 - x2)’ Se X1,X2 sono campioni multivariati normali iid di dimensione n1, n2, di due parlatori Spk1, Spk2 e la covarianza è la stessa, la statistica: D2(x1,x2) = (x1 - x2) S-1 (x1 - x2)’ ha una distribuzione di probabilità nota: se S è incognita si tratta di una T2 di Hotelling a due campioni, versione multivariata della t di Student; se invece è nota si tratta di una chi-quadratica 2p I TEST CON LA DISTANZA DI MAHALANOBIS Assegnata una ipotesi, ad esempio Spk1 = Spk2, eseguito l’esperimento ed estratto il campione, la distribuzione (pdf) della statistica della D2(x1,x2) può essere ricavata dai dati stessi (Rossi). Per la stima della covarianza con dati scarsi si usano generalmente gli approcci bootstrap con la ripetizione dei dati. Se X1,X2 sono campioni multivariati normali iid di dimensione n1, n2, n in totale, di due parlatori Spk1, Spk2 e la covarianza è la stessa, vale la importante legge: n1 n2 (n-p-1) D2 /[n(n-2)p] ~ Fp, n-p-1 dove F è la distribuzione di Fisher che per n∞, cioè per S, nota si semplifica nella : n1 n2 D2 /n ~ 2p. IL MODELLO FUB SP99 Ogni anno viene aggiornato presso la Fondazione Ugo Bordoni un database che contiene vettori parametrici di voci telefoniche maschili italiane adulte ricavate da casi di reale interesse giudiziario. In Enea vengono estratti da esso i modelli statistici aggiornati. Il Database è denominato SP seguito dall’anno di aggiornamento. L’ultimo è dunque SP99. Le sue specifiche sono: Popolazione: Maschi italiani adulti n° parlatori K = 179 n° di realizzazioni = 3983, p = 20 n° di vettori vocalici = 14176 DATABASE SP99 Grafici di scatter dei parlatori: formanti 1 e 2 della “a” 1 8 0 0 F2 1 6 0 0 1 4 0 0 1 2 0 0 1 0 0 0 4 0 05 0 06 0 07 0 08 0 09 0 0 F F 1 DATABASE SP99 Grafici di scatter dei parlatori: formanti della “a” e della “e” 1 1 0 0 1 2 0 0 1 3 0 0 1 4 0 0 1 5 0 0 1 6 0 0 2 0 0 0 2 2 0 0 2 4 0 0 2 6 0 0 2 8 0 0 3 0 0 0 7 5 0 6 5 0 a F F 1 5 5 0 4 5 0 1 6 0 0 1 5 0 0 1 4 0 0 a F F 2 1 3 0 0 1 2 0 0 1 1 0 0 2 8 0 0 2 6 0 0 a F F 3 2 4 0 0 2 2 0 0 2 0 0 0 3 0 0 0 2 8 0 0 2 6 0 0 e F F 3 2 4 0 0 2 2 0 0 2 0 0 0 4 5 0 5 5 0 6 5 0 7 5 0 2 0 0 0 2 2 0 0 2 4 0 0 2 6 0 0 2 8 0 0 IL MODELLO SP99: LA COVARIANZA “W” INTRAPARLATORE Poiché le vocali sono statisticamente indipendenti, il modello W può essere descritto mediante 4 tabelle separate comprendenti le varianze e le matrici di correlazione. Il modello W descrive la dinamica intraparlatore alle ipotesi di normalità multivariata e di stabilità del modello al variare del parlatore. Parametri Varianze (n-1) Correlazioni aFF0 aFF1 aFF2 aFF3 aFF0 355.3 1 0.00 0.04 0.06 1 -0.01 0.00 1 0.02 1 Parametri Varianze (n-1) Correlazioni iFF0 iFF1 iFF2 iFF3 iFF0 391.7 iFF1 802 iFF2 5814 iFF3 7340 1 0.15 0.07 0.04 aFF1 2357 1 -0.18 -0.09 aFF2 4195 1 0.39 aFF3 10840 1 Parametri Varianze (n-1) Correlazioni eFF0 eFF1 eFF2 eFF3 eFF0 321.4 eFF1 1720 eFF2 7260 eFF3 5696 1 -0.01 0.02 0.08 1 -0.20 0.02 1 0.19 1 Parametri Varianze (n-1) Correlazioni oFF0 oFF1 oFF2 oFF3 oFF0 347.7 oFF1 1658 oFF2 4101 oFF3 7644 1 0.00 0.07 0.02 1 0.02 0.01 1 -0.01 1 IL MODELLO SP99: LA COVARIANZA “P” DELLA POPOLAZIONE Il modello generale della popolazione dei maschi italiani adulti, supposto normale, è descritto mediante il vettore delle medie (centroide) della popolazione e la matrice di covarianza delle medie (varianze e correlazioni) a 16 - 20 dimensioni. Parametri aFF0 Centroide 130.3 aFF1 aFF2 aFF3 eFF0 629.3 1355.6 2432.0 132.8 eFF1 eFF2 eFF3 iFF0 465.8 1723.5 2458.7 137.8 iFF1 iFF2 iFF3 oFF0 355.5 1989.5 2510.5 133.8 oFF1 oFF2 oFF3 492.7 1057.2 2406.6 Varianze (n-1) aFF0 369 aFF1 2597 aFF2 4562 aFF3 13013 eFF0 433 eFF1 1354 eFF2 11551 eFF3 12715 iFF0 437 iFF1 1521 iFF2 14830 iFF3 13950 oFF0 452 oFF1 1445 oFF2 4398 oFF3 14646 aFF0 aFF1 aFF2 aFF3 eFF0 eFF1 eFF2 eFF3 iFF0 iFF1 iFF2 iFF3 oFF0 oFF1 oFF2 oFF3 1.00 0.18 -0.10 0.18 0.91 0.25 -0.06 0.12 0.91 0.40 -0.05 -0.01 0.93 0.26 0.04 0.14 0.18 1.00 0.25 0.35 0.22 0.55 0.48 0.39 0.25 0.28 0.45 0.42 0.22 0.54 0.25 0.28 -0.10 0.25 1.00 0.15 -0.05 0.18 0.46 0.32 -0.08 0.02 0.51 0.35 -0.08 0.18 0.43 0.24 0.18 0.35 0.15 1.00 0.20 0.38 0.42 0.84 0.18 0.18 0.39 0.68 0.18 0.31 0.17 0.87 0.91 0.22 -0.05 0.20 1.00 0.29 0.02 0.15 0.90 0.39 0.03 0.07 0.93 0.31 0.09 0.17 0.25 0.55 0.18 0.38 0.29 1.00 0.20 0.34 0.30 0.48 0.25 0.31 0.28 0.78 0.31 0.31 -0.06 0.47 0.46 0.42 0.02 0.20 1.00 0.58 -0.04 -0.10 0.78 0.65 0.00 0.29 0.18 0.40 0.12 0.39 0.32 0.83 0.15 0.34 0.58 1.00 0.14 0.08 0.56 0.84 0.12 0.32 0.26 0.80 0.90 0.25 -0.08 0.18 0.90 0.30 -0.04 0.14 1.00 0.44 -0.02 0.04 0.92 0.32 0.05 0.15 0.40 0.28 0.02 0.18 0.39 0.48 -0.10 0.08 0.44 1.00 -0.21 -0.05 0.41 0.43 0.11 0.14 -0.05 0.45 0.51 0.39 0.03 0.25 0.78 0.56 -0.02 -0.21 1.00 0.75 -0.02 0.20 0.27 0.37 -0.01 0.41 0.35 0.67 0.07 0.31 0.65 0.84 0.04 -0.05 0.75 1.00 0.02 0.34 0.26 0.61 0.93 0.21 -0.08 0.18 0.92 0.28 0.00 0.12 0.92 0.41 -0.02 0.02 1.00 0.30 0.08 0.16 0.26 0.54 0.18 0.31 0.31 0.78 0.29 0.32 0.32 0.43 0.20 0.34 0.30 1.00 0.38 0.21 0.04 0.24 0.43 0.17 0.09 0.31 0.18 0.26 0.05 0.11 0.27 0.26 0.08 0.38 1.00 0.16 0.14 0.28 0.24 0.86 0.17 0.31 0.40 0.80 0.15 0.14 0.37 0.61 0.16 0.21 0.16 1.00