Linguistica Computazionale Linguaggio e probabilità 20 ottobre 2014 Frequenza e probabilità l Legge dei Grandi Numeri l l la frequenza relativa di un evento converge verso la sua vera probabilità con l’aumentare del numero degli esperimenti Definizione frequentista di probabilità (empirica o a posteriori) l l la probabilità di un evento è interpretata come la sua frequenza relativa in una serie di repliche dello stesso esperimento (esperimento composto) sia n il numero di volte in cui un esperimento viene ripetuto, e fA il numero di volte in cui si osserva l’evento A nell’esperimento: P ( A) = lim n →∞ l f n A Esperimento: lancio di un dado (truccato) l l l A = {ottenere un numero pari} fA = numero di volte in cui è stato ottenuto 2, 4 o 6 come esito del lancio n = numero di lanci § al crescere di n, P(A) ≈ fA/n 2 Probabilità di una parola definizione frequentista l Esperimento aleatorio l l l selezionare una parola a caso da un testo qual è la probabilità di selezionare una parola v? Stimiamo la probabilità di v a partire da un corpus C l usiamo il corpus come oggetto di un esperimento composto di n selezioni successive di parole l l per ogni token t del corpus, si verifica se t è di tipo v oppure no l l numero di esperimenti n = |C| = calcoliamo la frequenza di v La frequenza relativa di una parola v in C permette di stimare la sua probabilità (ovvero la probabilità che venga estratta): f P (v ) ≈ |C | v 3 Data sparseness e stima frequentista della probabilità l La stima frequentista della probabilità viene anche chiamata Maximum Likelihood Estimation dei parametri di un modello probabilistico l l se la frequenza relativa di una parola in un corpus è 0.8, la probabilità della parola nel linguaggio è 0.8 La MLE è la funzione di assegnazione di probabilità che assegna la probabilità più alta agli eventi osservati nel training corpus 4 Data sparseness e stima frequentista della probabilità l Data sparseness l l l i dati estratti da un corpus non sono sufficienti per creare modelli probabilistici accurati del linguaggio Ci sono molte parole rare per le quali la frequenza relativa non fornisce una stima di probabilità affidabile Poiché un corpus (comunque grande) non esaurisce mai tutto il vocabolario, MLE sovrastima la probabilità delle parole nel corpus, senza lasciare nessuna porzione di probabilità alle parole non viste l l l’intera massa di probabilità viene ripartita tra tutte le parole tipo del corpus l la somma delle frequenze relative delle parole di un corpus è 1 se una parola tipo vi non appartiene al corpus, P(vi) = 0 5 Probabilità dell’unione di eventi probabilità dell’unione di eventi = somma di probabilità l Qual è la probabilità di selezionare un nome o un aggettivo? l fnome = 10 faggettivo = 5 fnome+aggettivo = 15 P(nome ∪ aggettivo) = fnome+aggettivo/|C| = 15/38 = 0,394 P(nome ∪ aggettivo) = P(nome) + P(aggettivo) = 10/38 + 5/38 = 15/38 = 0,394 Regola della somma generalizzata (per eventi mutuamente esclusivi) n P( A1 ∪ A2 ∪ … ∪ An ) = ∑ P( Ai ) i =1 6 Assiomi della probabilità l Ogni funzione di probabilità P per essere tale deve soddisfare i seguenti assiomi: l P(A)≥0, per ogni A (positività) l l la probabilità è sempre un numero positivo l P(A∪B) = P(A) + P(B), se A∩B=∅ (Regola della somma o unione) l P(Ω) = 1 (Certezza) Gli assiomi stabiliscono soltanto i vincoli che una misura di probabilità deve rispettare, ma non dicono come misurare la probabilità di un evento elementare l sia la definizione classica di probabilità che quella frequentista deve rispettare gli assiomi della probabilità 7 Sommare probabilità l Dalla regola della somma segue anche il postulato della certezza: l Esperimento: selezione di una parola da un corpus l Ω = {v1, v2, …, vn} § l P(Ω) = P({v1}∪{v2} ∪ …∪{vn}) § l le parole tipo del corpus le parole tipo rappresentano tutti eventi elementari mutuamente disgiunti P(Ω) = P({v1})+P({v2}+…+P({vn}) § per la regola della somma f f f C P (Ω) = + + … + = = 1 C C C C v1 v2 vn 8 Probabilità congiunte probabilità di eventi congiunti = prodotto di probabilità l P(A∩B) oppure P(A,B) l probabilità del verificarsi congiunto di due eventi A e B l esperimento: lancio di due dadi § l esperimento: estrazione di una carta da un mazzo § l probabilità di estrarre una regina nera § A = { estrarre una regina} B = {estrarre una carta nera} esperimento: estrazione di due parole da un testo § l probabilità di ottenere 6 in tutti e due dadi probabilità di ottenere un verbo e un aggettivo insieme Il calcolo del prodotto delle probabilità dipende dalla relazione tra i due eventi l eventi indipendenti l l il verificarsi dell’uno non condiziona il verificarsi dell’altro eventi dipendenti l il verificarsi dell’uno condiziona il verificarsi dell’altro 9 Probabilità congiunte eventi indipendenti l Due eventi A e B sono indipendenti se e solo se il verificarsi di A non ha nessun effetto sulla probabilità per B di verificarsi, e viceversa l l esperimento: lancio di due dadi Qual è la probabilità di ottenere in un lancio 6 in entrambi i dadi? l l l evento A = {1o dado = 6} P(A) = 1/6 evento B = {2o dado = 6} P(B) = 1/6 la probabilità che lanciando i due dadi ottenga 6 in entrambi i casi è dunque uguale a 1/6 di 1/6, ovvero 1/36 § l P(A,B) = 1/36 = 1/6 * 1/6 = P(A) * P(B) Se due eventi A e B sono indipendenti, in generale vale che: P( A ∩ B) = P( A) ∗ P( B) 10 Probabilità congiunte eventi indipendenti l Esperimento l l Qual è la probabilità che estragga insieme un nome e un articolo? l l l l estrarre due parole v1 e v2 a caso da un testo |C| = 50 fN = 10 fArt = 15 P(N, Art) = P(N) * P(Art) = fN/|C| * fArt/|C| P(N, Art) = 10/50 * 15/50 = 0,2 * 0,3 = 0,06 ATTENZIONE !!! questo funziona solo assumendo che la probabilità di estrarre un nome sia indipendente dalla probabilità di estrarre un articolo l modello dell’urna l consideriamo il testo come un insieme di parole indipendenti l’una dall’altra (= il capitare dell’una in un corpus non dipende dalla presenza di un’altra parola). Tutti i tokens vengono vengono messi in un’urna, da cui si compiono le estrazioni v 1, v 2 11 Probabilità congiunte sequenze di parole l Esperimento l l estrarre 2 parole consecutive da un testo l bigramma = sequenza di 2 parole l n-gramma = sequenza di n parole Qual è la probabilità di estrarre un bigramma <Art, N>? l la probabilità di estrarre una parola v2 (consecutiva a v1) non è indipendente dalla probabilità di estrarre v1 l dipendenze sintattiche, semantiche, ecc. determinate dalla grammatica § l es. gli articoli tendono a essere seguiti da nomi poiché Art e N non sono indipendenti, l P(Art, N) ≠ P(Art) * P(N) 12 Calcolo dei bigrammi il presidente ha dichiarato la sua indisponibilità ad ogni trattativa . l Bigrammi nella frase l l l l l l l l l l l il<>presidente presidente<>ha ha<>dichiarato dichiarato<>la la<>sua sua<>indisponibilità indisponibilità<>ad ad<>ogni ogni<>trattativa trattativa<>. .<>$ |C| = 11 tokens bigrammi = 11 |bigrammi| = |C| il numero di bigrammi è uguale al numero di token, se aggiungiamo dopo l’ultimo token un token “segnaposto” di fine testo 13 Probabilità congiunte probabilità di bigrammi l l Per stimare la probabilità di un bigramma <v1, v2> usiamo la frequenza relativa del bigramma <v1, v2> in un testo Ipotesi: |C| = 100 fN = 20 fArt = 25 fV = 20 |bigrammi| = |C| = 100 fArt, N = 18 fArt, V = 3 l l gli articoli tendono a precedere i nomi, ma esistono anche alcuni infiniti sostantivati P(Art, N) ≈ fArt, N/|C| = 18/100 = 0,18 Dal momento che fV = fN, se valesse l’ipotesi di indipendenza, avremmo anche che P(Art, N) = P(Art, V) l l P(Art, N) = P(Art) * P(N) = fArt/|C| * fN/|C| = 25/100 * 20/100 = 0,25 * 0,2 = 0,05 P(Art, V) = P(Art) * P(V) = fArt/|C| * fV/|C| = 25/100 * 20/100 = 0,25 * 0,2 = 0,05 …ma questo è falso!!!… infatti vale che, P(Art, V) ≈ fArt, V/|C| = 3/100 = 0,03 14