Variabili Continue - Associazione Italiana di Scienze della Voce

2. VARIABILI CONTINUE
A. Federico
ENEA; Fondazione Ugo Bordoni
Scuola estiva di fonetica forense
Soriano al Cimino 17 – 21 settembre 2007
VARIABILI E SPAZI CONTINUI
Se un esperimento consiste, ad esempio,
nel
misurare la prima formante di una vocale, lo spazio
degli eventi S si può far corrispondere a tutti i punti di
un intervallo di un asse reale: si ha in questo caso uno
spazio degli eventi descritto da una variabile continua.
Se le misure sono più d’una, come nel caso che si
misurino tutte le formanti, lo spazio degli eventi è
multidimensionale e continuo.
Un vettore XS è un evento necessariamente
associato ad una misura di probabilità nulla. La
ripartizione in sottoinsiemi s  S dello spazio degli
eventi lascia la possibilità di misure di probabilità non
nulle associate ai sottoinsiemi perché sono a tutti gli
effetti eventi discreti.
ESPERIMENTI NEGLI SPAZI CONTINUI
Il risultato di un esperimento
rappresentato da p numeri reali,
può
essere
X = x1, x2, … xp……
definiti in un dominio S in uno spazio degli eventi
multidimensionale (multivariato), Sp.
Gli assiomi probabilistici ed i teoremi del calcolo
delle probabilità vengono adattati alle variabili
continue riconducendo lo spazio ad un reticolo
numerabile di intervalli.
Ad ogni sottodominio elementare siS si può
associare una probabilità cui si possono applicare i
principi degli spazi discreti degli eventi.
FUNZIONI DI DENSITÀ E DISTRIBUZIONE
La prima delle proprietà si esprime nel continuo al
seguente modo:
P(Ei) = Si p(X) d X ; P(S) = 1.
La funzione p(x) è definita in modo che si possa
calcolare la probabilità di un sottoinsieme Ei
attraverso la sua integrazione locale.
Il calcolo delle probabilità negli spazi continui è
dominato da queste funzioni note come funzioni di
densità di probabilità, p.d.f. = p(X) . Si tratta di
funzioni associate ad altre funzioni, dette di
distribuzione di probabilità, che sono gli integrali
definiti delle p.d.f. corrispondenti alla probabilità
che la variabile vettoriale sia inferiore ad un valore
dato, X0, argomento della P.D.F., cioà che X < X0.
MOMENTI DELLA pdf
I momenti della funzione si definiscono per p=1:
Mk = (xk ) = S xk p(x) d x
ed in particolare la media:
(x ) =  = S x p(x) d x
e la varianza:
(x-)2 = 2 = S (x-)2 p(x) d x
Queste
definizioni
sono
immediatamente
generalizzabili ai momenti di ordine superiore ed alle
pdf multivariate. Si può dimostrare che la
conoscenza dei momenti di tutti gli ordini consente
di specificare la funzione pdf in tutti i punti.
ALCUNE LEGGI
Si definiscono alcune leggi indipendenti dalla pdf:
Diseguaglianza di Markov: sia x una variabile
aleatoria positiva con un valore atteso  = E(x). Per
ogni   0:
P(x ≥ ) ≤ /
che corrisponde all’idea che man mano che  cresce
rispetto a  la probabilità deve diminuire.



0
0

E ( x)   xP( x)dx   xP( x)dx   xP( x)dx




  xP( x)dx    P( x)dx  P( x   )
ALCUNE LEGGI
Diseguaglianza di Cebychev: applicando la legge di
Markov alla distanza euclidea dalla media della
variabile x, (x-)2, per qualunque k>0:
P(|x-| k)  1/k2
Diseguaglianza di Chernoff: se nella diseguaglianza
precedente si inserisce la media di un campione di n
estrazioni indipendenti di una popolazione:
x = 1/n Si xi
si ottiene:
P(|x-| k)  2/nk2
che tende a zero al crescere di n.
GRANDI NUMERI
Teorema dei grandi numeri o di Bernoulli:
“La frequenza relativa di qualunque evento casuale
converge alla sua probabilità all’aumentare del
numero delle prove”
Si ottiene direttamente dalla diseguaglianza di
Chernoff applicata ad una variabile binomiale
bernoulliana [0;1] e dalla definizione di media , che
corrisponde alla frequenza di tale variabile e che
deve convergere al valore della probabilità p
dell’estrazione dell’1.
LIMITE CENTRALE
Teorema del limite centrale:
“Per un campione di n estrazioni x1, x2, ... xn;
qualunque sia la funzione di densità di probabilità
p(x), la variabile:
y = n-½Sk (xk-)
converge in distribuzione ad una particolare
funzione, denominata p.d.f. “Normale”, N(,2)”
LA DISTRIBUZIONE NORMALE DI GAUSS
Per p=1 la distribuzione normale ha la forma:
N(,2) = (22)-½ exp [-(x-)2 /22)]
interamente definita dai parametri ,2, quindi dai
momenti del primo e secondo ordine.
Densità di probabilità
DISTRIBUZIONE NORMALE
0.4
0.3
0.2
0.1
0
-3
-2
-1
0
x/std.dev-media
1
2
3
CONVERGENZA ALLA DISTRIBUZIONE NORMALE
DISTRIBUZIONE DI UNA MEDIA
120
FREQUENZE
100
n=1
80
n=2
60
n=5
n=10
40
20
1
0,8
0,6
0,4
0,2
0
-0,2
-0,4
-0,6
-0,8
-1
0
MEDIA
La immagine mostra la rapida convergenza alla normale di una
media di n numeri a distribuzione uniforme.
LA DISTRIBUZIONE DEI QUADRATI
La somma y dei quadrati di p variabili normali a
media nulla =0 ed a varianza unitaria 2=1 ha una
distribuzione chi-quadratica con p gradi di libertà:
2(y)= [2 p/2 (1/2p)]-1yp/2-1e-y/2
DISTRIBUZIONE CHI QUADRATO
0,40
0,35
DENSITA'
0,30
p=1
p=4
p=16
0,25
0,20
p=2
p=8
p=20
0,15
0,10
0,05
0,00
0
10
20
30
y
40
LA FUNZIONE DI VEROSIMIGLIANZA
Sia stata estratta una sequenza di n vettori
indipendenti Xi costituenti un campione X e sia
assegnata una famiglia di k p.d.f.s, f1, f2, … fK.
La probabilità congiunta della sequenza è diversa per
ciascuna delle k ipotesi, corrispondenti a k diverse
attribuzioni del campione.
La funzione di verosimiglianza dell’ipotesi k-esima è
una densità di probabilità congiunta, quindi un
prodotto del tipo:
L(fk|X) = p(x|fk) = ifk(Xi)
Si tratta di una funzione della pdf propria di ogni
possibile ipotesi che non gode di nessuna delle
proprietà asssiomatiche della probabilità.
LA FUNZIONE DI VEROSIMIGLIANZA NORMALE
Si assuma una famiglia di p.d.f. (p.es. normali,
binomiali, etc.) definita da una forma funzionale f e
da un vettore di parametri  = (1,2, … m). Nel
caso della distribuzione normale con p=1  = (,2)
ed f = N(,2), quindi:
p(x|) = p(x|,2) = L( ;x) =
L(,2;x) = (22)-½nJ exp -[Si(xi-)2 /22)]
La funzione di verosimiglianza logaritmica è:
l = -1/2 n log (22) - Si(xi-)2 /22)
L, come funzione di ,2, non è una p.d.f, e non gode
di proprietà assiomatiche.
LA DISTRIBUZIONE MULTIVARIATA NORMALE
Campioni di vettori aleatori composti da p variabili,
congiuntamente normali, sono governati dalla
funzione di densità di probabilità (p.d.f)
multivariata N(;S):
p(x |;S) = |2S |-1/2 exp -[(x - ) S-1 (x - )’]
dove  e S sono i valori attesi di x* e di W. Le
sezioni di isoprobabilità di p(x|;S) sono superfici
di ellissoidi p-dimensionali:
di volume
p/2 i ai/ (p/2+1)
e di area
p/2 p(i ai)(p-1)/p / (p/2+1)
LA DISTRIBUZIONE MULTIVARIATA NORMALE
SEZIONI NORMALI EQUIPROBABILI
IL TEOREMA DI BAYES NEL CONTINUO
Sia X un vettore di n osservazioni x1, x2, … xn di una
popolazione regolata da una pdf p(x) per la cui
definizione sono necessari k parametri 1, 2, … k
come accade per la distribuzione normale
interamente definita da  e  (k=2). Nell’approccio
bayesiano le  sono esse pure variabili aleatorie
governate dalle loro proprie pdf, p().
La probabilità congiunta riscritta per il continuo:
p(X,) = p(X/) p() = p(/X) p(X)
Da cui il teorema di Bayes nel continuo:
p(/X) = p(X/) p()/p(X)
LA PROBABILITÀ A PRIORI DEL CAMPIONE
Nella formula compaiono due probabilità di eventi
che precedono l’estrazione del campione X e sono
dunque a-priori, la p(X) e la p().
Per calcolare p(X) non c’è che da integrare su  i due
termini della formula di Bayes e rammentare che
l’integrale della probabilità a posteriori deve essere 1.
Ne segue che la:
p(X) =  p(X/) p() d = costante
è un valore che, estratto X, è sempre lo stesso.
Svolge il ruolo di coefficiente di normalizzazione.
Nella formula di Bayes espressa in forma di chances
(odds) si semplifica a numeratore-denominatore.
LA PROBABILITÀ A PRIORI DELL’IPOTESI
La seconda probabilità a priori, p(), esprime tutto
quello che sappiamo a priori sull’oggetto del test,
ivi compresa la colpevolezza o l’innocenza di uno o
più imputati.
Se X è un vettore di formanti di una voce incognita,
che si ritiene possa appartenere ad uno tra m
parlatori noti, o a  viene assegnato il valore j del
parlatore j-esimo che si confida essere l’anonimo,
o gli si attribuisce un valore non informativo, che
non può che essere quello che definisce la pdf
dell’intera popolazione cui appartengono tutti i
parlatori
LA VEROSIMIGLIANZA
L’operazione sperimentale informativa che noi
eseguiamo consiste effettivamente nella estrazione del
campione X un vettore di n osservazioni x1, x2, … xn
Il
teorema
delle
probabilità
congiunte,
data
l’indipendenza delle n misure, permette di scrivere:
p(X/) = L(|X) = i p(xi/)
Ed infine di ricavare la pdf a posteriori da due pdf a
priori e dalla verosimiglianza di un dato campionario:
p(/X) = p(X/) p()/p(X)
IL CASO NORMALE MONOVARIATO
Supponiamo che la pdf a priori sia normale:
N(,2) = (22)-½ exp [-(-)2 /22)]
e che di tipo normale sia anche la verosimiglianza
espressa rispetto alla media del campione x:
L(|X)  exp [-(-x)2 /2w2)]
Si dimostra senza difficoltà che posto:
 = (-2 + w-2x)/(-2 + w-2)
la probabilità a posteriori è ancora una normale:
p(/X) = N(; (-2 + w-2)-1]
INFERENZA BAYESIANA_1
Supponiamo che siano state eseguite n osservazioni di
una variabile normale monodimensionale x di cui sia
nota la varianza w2 e si supponga una distribuzione a
priori noninformativa (>>w). Si calcola la pdf a
posteriori:
N(x,w2/n) = (2w2/n)-½ exp [-n(-x)2 /2w2)]
Con la semplice utilizzazione di una tavola della
distribuzione normale si può determinare l’intervallo
attorno ad x che racchiude l’importo voluto di
probabilità, di norma il 99%, intervallo bayesiano HPD
(high probability region).
INFERENZA BAYESIANA_2
Supponiamo che siano state eseguite n,m osservazioni
di due variabili normali x, z monodimensionali di pari
varianza w2. Si supponga una distribuzione a priori
noninformativa (>>w). Si calcola la pdf a posteriori nei
due casi. Se w è nota la pdf è normale:
N(x-z,w2/(1/n+1/m))
Se viceversa w non è noto ed è stimato come media
pesata delle due varianze campionarie:
s2 = 1/(n+m-2) [(n-1)Sx2 + (m-1)Sz2]
la variabile:
t = [ -(x-z)]/s(1/n+1/m)1/2
è distribuita come una T di Student: T(0, 1, n+m-2)
T DI STUDENT
La pdf di Student ha code più alte, fianchi più stretti e
varianza maggiore rispetto alla normale cui tende
rapidamente all' aumentare dei gradi di libertà.
x 
s/ n
~ t di Student (con n=n-1 g.d.l.)
f(t)
0.4
gaussiana
0.3
0.2
p=0.1
n
t di Student (n=2)
0.1
p=0.1
0
l l
-8
-6
-4
-2
0 1.28 1.89
2
4
6
t8