Linguistica Computazionale Linguaggio e probabilità 14 ottobre 2014 Probabilità e cognizione The argument for a probabilistic approach to cognition is that we live in a world filled with uncertainty and incomplete information. To be able to interact successfully with the world, we need to be able to deal with this type of information. Manning & Schütze (1999), Foundations of Statistical Natural Language Processing, MIT Press: 15 l Esempio l l sto partendo per un viaggio e devo decidere se mettere in valigia un ombrello oppure no Per prendere questa decisione devo stimare la probabilità che piova, integrando diversi tipi di informazione sulle condizioni atmosferiche l temperatura, stagione, meta del viaggio, previsioni del tempo a destinazione, ecc. l l l se è autunno, è probabile che piova (perché spesso piove in autunno) se è agosto e vado in Tunisia è molto poco probabile che piova (perché è raro che in agosto piova in Tunisia) se è agosto e vado in Scozia, è molto probabile che piova (perché le piogge2 in estate in Scozia sono frequenti) Probabilità e linguaggio The cognitive processes used for language are identical or at least very similar to those used for processing other forms of sensory input and other forms of knowledge. These processes are best formalized as probabilistic processes or at least by means of some quantitative framework that can handle uncertainty and incomplete information. Manning & Schütze (1999), Foundations of Statistical Natural Language Processing, MIT Press: 15 l Esempio l decidere come segmentare una sequenza di suoni in parole discrete l lamacchinaeraparcheggiatadavantiallaporta § l decidere la categoria di morfosintattica (part of speech) di una parola l la macchina la aspettava davanti alla porta § l stimare la probabilità che tra due suoni esista un confine di parola stimare la probabilità che la sia un articolo o un pronome clitico decidere come tradurre un’espressione linguistica l L’aquila ha perso una penna volando § stimare la probabilità che penna si traduca pen o feather in inglese 3 Probabilità e linguaggio l Per stimare queste probabilità “linguistiche” devo integrare informazioni sul modo in cui si distribuiscono le strutture del linguaggio l decidere come segmentare una sequenza di suoni in parole discrete l lamacchinaeraparcheggiatadavantiallaporta § l decidere la categoria di morfosintattica di una parola l la macchina la aspettava davanti alla porta § § l lamac non è un probabile confine di parola, perché ci sono poche parole che finiscono per consonante, ecc. se la ricorre davanti a un nome è probabile che sia un articolo (perché di solito gli articoli precedono i nomi) se la ricorre davanti a un verbo è probabile che sia un pronome clitico, ecc. decidere come tradurre un’espressione linguistica l L’aquila ha perso una penna volando § dal momento che l’aquila è un uccello, è molto probabile che penna vada 4 tradotto con feather (perché di solito gli uccelli hanno le penne/feather), ecc. Linguaggio e probabilità “The key characteristic of language used by the learners in the construction of their individual armamentaria is revealed at every level one cares to consider. It is non-randomness, or DEPARTURE FROM EQUIPROBABILITY, in the distribution of symbols and symbol sequences (Harris, 1991, p:32)” S. Edelman (2008), Computing the Mind: 247 Modelli statistici del linguaggio l l Un modello statistico (probabilistico) di un evento è un modello matematico che determina la probabilità del verificarsi di quell’evento Le statistiche estratte da un campione di dati su eventi noti vengono usate per stimare la probabilità del loro verificarsi e predire così nuovi eventi l l un campione di dati sulle condizioni atmosferiche in agosto in Scozia sono usate per costruire un modello che assegna una probabilità all’evento “pioggia in agosto in Scozia” un corpus di testi è usato per calcolare statistiche sulle distribuzioni delle parole e costruire un modello che assegna una probabilità a eventi linguistici l es. l’evento che la sia un articolo 6 Modelli statistici definizione della struttura del modello probabilistico stima dei parametri del modello (stima delle probabilità) training corpus modello probabilistico valutazione della capacità predittiva del modello test corpus 7 Modelli statistici del linguaggio A Statistical NLP approach seeks to solve these problems by automatically learning lexical and structural preferences from corpora Manning & Schütze (1999: 19) l Modelli statistici per NLP l l l maggiore robustezza l “graceful degradation” in caso di errore capacità di generalizzazione approccio induttivo ed empirico l i parametri dei modelli vengono automaticamente stimati a partire da corpora di addestramento § § velocità di sviluppo interessanti dal punto di vista cognitivo come modelli dell’acquisiione del linguaggio 8 Che cosa è la probabilità? l Eventi aleatori l eventi incerti, che possono verificarsi oppure no l l l l l l’evento di tirare un dado e ottenere 6 l’evento che domani piova l’evento che venga estratto il numero 15 al lotto l’evento che estraendo una parola a caso da un testo ottenga la parola “uomo” Probabilità l un numero che attribuiamo ad un evento per quantificare il suo grado di incertezza l l l quanto è probabile che domani piova? quanto è probabile che tirando un dado ottenga il numero 6? le probabilità ci permettono di prendere decisioni in caso di incertezza, per prevedere la possibilità del verificarsi di un evento aleatorio 9 La definizione di probabilità l Esperimento l il processo attraverso cui viene compiuta una certa osservazione l l l l un esperimento aleatorio è un esperimento il cui esito non può essere previsto con certezza prima che venga eseguito la teoria della probabilità si occupa di assegnare una probabilità al verificarsi di un evento sulla base di una serie di esperimenti (osservazioni) ripetuti Esperimento composto l un insieme di n repliche di un esperimento (nelle stesse condizioni) l l l lanciare un dado e vedere l’esito che produce (il numero ottenuto) n lanci successivi di un dado n successive osservazioni scientifiche dello stesso fenomeno Spazio campione (Ω) l l’insieme degli esiti (risultati) possibili di un esperimento l l ciascun esito si chiama punto campione esperimento: lancio di un dado § l Ωd = {1, 2, 3, 4, 5, 6} esperimento: lancio di una moneta § Ωm = {testa, croce} 10 La definizione di probabilità l Evento l un sottoinsieme A dello spazio campione Ω, i cui elementi si dicono i risultati favorevoli all’evento A l l l l l’insieme di tutti i possibili eventi di Ω si chiama spazio degli eventi (E) i punti campione sono gli eventi elementari un evento formato da più di un punto campione si dice evento complesso Esperimento: lancio di un dado l Ωd = {1, 2, 3, 4, 5, 6} l evento A = {ottenere un numero pari} evento complesso § l evento B = {ottenere un 6} § l evento elementare B = {6} evento C = {ottenere un numero compreso tra 1 e 6} § l A = {2, 4, 6} C = {1, 2, 3, 4, 5, 6} = Ωd § un evento equivalente allo spazio campionario si dice evento certo evento D = {ottenere un numero maggiore di 6} § D={}=∅ § un evento equivalente all’insieme vuoto (∅) si dice evento impossibile 11 La definizione di probabilità l Dato uno spazio campione Ω, una funzione di probabilità P (distribuzione di probabilità) assegna a ogni evento di Ω un numero reale compreso tra 0 e 1 (P: E à [0, 1]) l l una funzione di probabilità definisce uno spazio probabilistico per Ω Definizione classica di probabilità (a priori) l dato un esperimento in cui Ω è finito e tutti i punti campione sono egualmente verosimili e mutuamente esclusivi, per ogni evento A: P( A) = A Ω 12 Probabilità classica l Esperimento: lancio di un dado (non truccato) l Ωd = {1, 2, 3, 4, 5, 6} l A = {ottenere un 6} § § l § § C = {1, 2, 3, 4, 5, 6} |C| = 6 P(C) = |C|/|Ωd| = 6/6 = 1 (evento certo, |C| = |Ω|) D = {ottenere un numero maggiore di 6} § § l B = {2, 4, 6} |B| = 3 P(B) = |B|/|Ωd| = 3/6 = 1/2 = 0,5 C = {ottenere un numero compreso tra 1 e 6} § l A = {6} |A| = 1 P(A) = |A|/|Ωd| = 1/6 = 0,16666666666666 B = {ottenere un numero pari} § l |Ωd| = 6 D={} |D| = 0 P(D) = |C|/|Ωd| = 0/6 = 0 (evento impossibile) La definizione classica non è appropriata se Ω è infinito o i vari 13 esiti non sono egualmente verosimili