Linguistica Computazionale 18 ottobre 2016 Intepretare la Legge di Zipf l Secondo Zipf la distribuzione delle parole nei testi riflette un principio di economia nella comunicazione l parlante e ascoltatore cercano entrambi di minimizzare i loro sforzi l l l lo sforzo del parlante è ridotto avendo un piccolo vocabolario di parole molto comuni (= frequenti) lo sforzo dell’ascoltatore è ridotto avendo un grande vocabolario di parole più rare (e meno ambigue) la Legge di Zipf rappresenterebbe il compromesso migliore (= più economico) tra queste due opposte tendenze 2 La Legge di Zips le conseguenze per la linguistica computazionale l Ci sono sempre poche parole molto frequenti l l corrispondono solitamente a parole appartenenti a “classi chiuse” (articoli, preposizioni, congiunzioni, ecc.) Ci sono sempre moltissime parole a bassa frequenza e hapax (LNRE, Large Number of Rare Events) l l sono parole “piene” (nomi, verbi, ecc.), solitamente estremamente informative sul contenuto di un documento il vocabolario è aperto l l nuovi temi e concetti portano a introdurre nuove parole produttività lessicale § § nuovi termini derivati morfologici, ecc. I dati linguistici sono rari (data sparseness) 3 La dinamica del vocabolario l Studiamo l’andamento della crescita lessicale all’aumentare del testo l l come aumenta |VC| all’aumentare di |C| Il testo come flusso di parole l Il testo può essere visto come una sequenza v1, v2, …,vi, … v|C| di parole indicizzate per posizione l i può essere interpretato come associato a un dato istante temporale, § l vi è la parola che troviamo leggendo sequenzialmente il testo all’istante i VC(i) è il vocabolario delle prime i parole di C (i≤|C|) l |VC(i)| è la grandezza del vocabolario usato nelle prime i parole del testo l fornisce il tasso di crescita del vocabolario all’aumentare del corpus 4 La dinamica del vocabolario |VC(i)| grandezza vocabolario 7000 6000 5000 La crescita del vocabolario in PInocchio y = 3.2824x 0.6984 4000 3000 2000 1000 0 0 10000 20000 30000 40000 50000 60000 lunghezza testo con punteggiatura senza punteggiatura Potenza (con punteggiatura) 3500 3000 2500 La crescita degli hapax in Pinocchio 2000 numero di hapax 1500 1000 500 0 0 10000 20000 media hapax 30000 40000 50000 hapax osservati 5 La dinamica del vocabolario l l Forte correlazione tra aumento della lunghezza del corpus e aumento del vocabolario Il vocabolario VC di un corpus cresce in maniera non lineare rispetto a |C| l |VC(i)| non cresce sempre, poiché esistono parole che devono ripetersi più o meno regolarmente § § § l parole grammaticali, principi di coerenza lessicale andamento narrativo, ecc. la curva di |VC(i)| non ha mai un asintoto orizzontale l il vocabolario non smette mai di crescere § aumenta sempre più lentamente rispetto al crescere delle dimensioni 6 del corpus Indicatori di tendenza centrale l l Media aritmetica Mediana l l x + x + ... + xn x= 1 2 = n ∑ n x i =1 i n la modalità di un’osservazione che divide la distribuzione in due parti uguali n +1 me(x) = 2 La media è un indicatore molto sensibile ai valori “estremi” l 1,2,3,4,5 --> € media = 3; mediana =3 l 1,2,3,4,70 --> media = 16; mediana =3 7 Indicatori di dispersione l Deviazione standard (σ, scarto quadratico medio) l indice statistico di “dispersione” che misura la variabilità dei dati di una distribuzione (quanto i singoli dati differiscono rispetto alla media) l σ2 è la varianza della variabile n σ= 2 ( x − x ) ∑i =1 i n media scarti scarti 8 Distribuzione normale valori frequenza freq. relativa % 1.50-1.55 1 3.7 1.56-1.60 3 11.1 Misurazione dell’altezza di un campione di 27 soggetti 1.61-1.65 6 22.2 media = 1.68 1.66-1.70 8 29.6 mediana = 1.68 1.71-1.75 5 18.5 1.76-1.80 3 11.1 1.81-1.85 1 3.7 Distribuzione normale istogramma della distribuzione dell’altezza dei soggetti Distribuzione normale (Gaussiana) l Famiglia di distribuzioni delle frequenze relative (probabilità) dei valori di una variabile (continua) l l x = valori della variabile y = frequenza relativa (probabilità) di ciascun valore 11 Distribuzioni statistiche distribuzione normale (Gaussiana) l Distribuzioni simmetriche rispetto alla media e con forma a campana l ha il massimo in corrispondenza della media l l ogni distribuzione è completamente definita da due parametri: media e σ l l l i valori della distribuzione si addensano intorno al valor medio σ = definisce l’ampiezza della campana l’area sottesa dalla curva è uguale a 1 Pochi valori “estremi”: la maggior parte dei valori tende a raggrupparsi intorno al valor medio l l l 68% dei valori della variabile cade nell’intervallo µ±σ 95% dei valori della variabile cade nell’intervallo µ±2σ 99,7% dei valori della variabile cade nell’intervallo µ±3σ 12 Distribuzioni statistiche distribuzione normale (Gaussiana) l Distribuzione tipica di molti variabili relative a fenomeni naturali e comportamentali (es. peso, altezza, ecc.) e sociali l l i valori si concentrano intorno alla media, mentre i valori estremi sono estremamente improbabili gli errori di misura (errori accidentali) si distribuiscono normalmente 0,15 0,12 distribuzione normale degli errori di misura 0,15 0,15 n=40 0,09 n=160 0,12 0,12 0,09 0,09 0,06 0,06 0,06 0,03 0,03 0,03 0 75 80 85 90 95 100 105 0 n=5120 0 75 80 85 90 95 100 105 75 80 85 90 95 100 105 13 Distribuzioni di parole la frequenza media l Frequenza media delle parole in C _ f (| C |) = l C VC deriva dalla definizione di media aritmetica l sommiamo la frequenza delle parole tipo e la dividiamo per il numero di parole tipo _ f = l f v 1 + f v2 + ... + f vn n = |C | | VC | indicatore “inverso” di ricchezza lessicale 14 Distribuzioni di parole la frequenza media l L’andamento tendenziale della frequenza media al crescere dei campioni di testo è quello di una funzione non decrescente: _ _ f (k ) ≤ f (k + 1) l si possono registrare temporanee inversioni di tendenza, se si registra un aumento del ritmo di crescita del vocabolario l segno di discontinuità nel contenuto del testo frequenza media 10 1 0 10000 20000 30000 40000 50000 Crescita della frequenza media in PInocchio densità rapporto tra il numero di parole nuove introdotte in ciascun capitolo e la lunghezza del capitolo densità 0,1 0,01 lunghezza testo 15 Distribuzioni di parole alcune conclusioni l La frequenza media di parola non è un valore convergente l la frequenza media di parola tende ad avere un andamento strettamente crescente (a differenza di quanto accade per la media di altre variabili) l l l Le frequenze degli eventi linguistici hanno una distribuzione zipfiana l l gran numero di parole rare (Large Number of Rare Events) il numero delle parole tipo continua a crescere con l’aumentare del corpus l l vari indicatori statistici (es. media, frequenze relative) sono sensibili alla grandezza del corpus la frequenza media di parola in un corpus (comunque grande) non può essere usato per stimare la frequenza media reale non finiamo mai di esplorare il vocabolario del linguaggio In tutti i corpora ci sono molte parole “non viste”, ovvero che rimangono fuori dal campione 16 Probabilità e cognizione The argument for a probabilistic approach to cognition is that we live in a world filled with uncertainty and incomplete information. To be able to interact successfully with the world, we need to be able to deal with this type of information. Manning & Schütze (1999), Foundations of Statistical Natural Language Processing, MIT Press: 15 l Esempio l l sto partendo per un viaggio e devo decidere se mettere in valigia un ombrello oppure no Per prendere questa decisione devo stimare la probabilità che piova, integrando diversi tipi di informazione sulle condizioni atmosferiche l temperatura, stagione, meta del viaggio, previsioni del tempo a destinazione, ecc. l l l se è autunno, è probabile che piova (perché spesso piove in autunno) se è agosto e vado in Tunisia è molto poco probabile che piova (perché è raro che in agosto piova in Tunisia) se è agosto e vado in Scozia, è molto probabile che piova (perché le piogge in 17 estate in Scozia sono frequenti) Probabilità e linguaggio The cognitive processes used for language are identical or at least very similar to those used for processing other forms of sensory input and other forms of knowledge. These processes are best formalized as probabilistic processes or at least by means of some quantitative framework that can handle uncertainty and incomplete information. Manning & Schütze (1999), Foundations of Statistical Natural Language Processing, MIT Press: 15 l Esempio l decidere come segmentare una sequenza di suoni in parole discrete l lamacchinaeraparcheggiatadavantiallaporta § l decidere la categoria di morfosintattica (part of speech) di una parola l la macchina la aspettava davanti alla porta § l stimare la probabilità che tra due suoni esista un confine di parola stimare la probabilità che la sia un articolo o un pronome clitico decidere come tradurre un’espressione linguistica l L’aquila ha perso una penna volando § stimare la probabilità che penna si traduca pen o feather in inglese 18