Semantica distribuzionale

La semantica distribuzionale comprende una serie di teorie e metodi di linguistica computazionale per lo studio della distribuzione semantica delle parole nel linguaggio naturale. Questi modelli derivano da una prospettiva empiristica e assumono che una distribuzione statistica dei termini sia preponderante nel delinearne il comportamento semantico [1].

Principi di base

Questa teoria propone il paradigma per cui le parole sono distribuite in uno spazio nel quale sono, tra loro, ad una distanza proporzionale al loro grado di similarità. Quest'ultima segue l'ipotesi fondamentale della semantica distribuzionale (chiamata ipotesi distribuzionale) secondo la quale due parole sono tanto più simili semanticamente, quanto più tendono a comparire nello stesso contesto linguistico.
La frase emblematica di questa teoria è[2]:

(EN)

«You shall know a word by the company it keeps»

(IT)

«Conoscerai una parola dalla compagnia che frequenta»

Questa ipotesi condivide un principio di funzione simile al modello cognitivo proposto per spiegare il funzionamento del lessico mentale, per cui i concetti non sono memorizzati tutti come in un'enciclopedia, ma sono organizzati in base alle informazioni contestuali in cui la parola compare [3].

Gli spazi vettoriali

Per le realizzazioni concrete dell'ipotesi distribuzionale si procede costruendo degli spazi semantici distribuzionali utilizzando rappresentazioni geometriche per rappresentare la semantica del testo. Ogni punto nello spazio è caratterizzato da n dimensioni, cioè dalle coordinate rispetto agli n assi che formano il nostro spazio vettoriale. In questo modo ogni parola diventa un vettore, le cui dimensioni dipendono dai contesti linguistici in cui la parola può ricorrere e la distanza tra i punti è proporzionale alla distanza semantica tra le parole (in base all'ipotesi distribuzionale).
Formalmente lo spazio semantico viene definito tramite quattro variabili fondamentali [4] [5]:

  • T che rappresenta l'insieme delle parole target che vanno a formare lo spazio semantico;
  • B, cioè la base che definisce le dimensioni del nostro spazio e contiene i contesti linguistici sui quali viene valutata la similarità;
  • M è la matrice di co-occorrenza che rappresenta i vettori di T;
  • S è la metrica che misura la distanza dei punti nello spazio semantico;

Si può riassumere quindi che ogni parola target T corrisponde ad una riga della matrice M e ogni contesto B definisce le colonne della matrice stessa. Le celle contengono, nel caso più semplice, la frequenza di co-occorrenza della parola T in un contesto B.
Le differenze tra i modelli dipendono dal metodo con cui definiscono B, cioè da come definiscono il contesto. Comunemente viene definito in base ad una finestra W di parole che stanno attorno alla parola target T. In questo caso B (la dimensione dei vettori) è sottoinsieme delle parole tipo ottenuto escludendo le stopwords (che non hanno rilevanza dal punto di vista semantico) e includendo le parole contenuto più frequenti nel vocabolario del testo.
Se bisogna calcolare la distanza semantica tra due parole, è necessario calcolare la distanza tra i due vettori su tutte le dimensioni. Più sono le dimensioni simili tra i due vettori, più i significati delle parole che formano i vettori sono simili (sempre secondo l'ipotesi distribuzionale). La misura più comune della vicinanza spaziale è il coseno dell'angolo formato dagli stessi (se i vettori hanno dimensioni uguali, l'angolo è 0 e il coseno è massimo = 1; se i vettori sono indipendenti, l'angolo è 90° e il coseno è minimo = 0). Un altro metodo è calcolare la Distanza euclidea generalizzando ad uno spazio multidimensionale.

Semantica e cognizione

In seguito alla verifica dei risultati e della loro correttezza è emerso che l'ipotesi distribuzionale ha molti riscontri con l'interpretazione semantica che viene dato dalle persone, in particolare gli spazi semantici distribuzionali possono essere usati come modelli per vari compiti legati alla distanza semantica tra le parole (priming semantico oppure, errori di interferenza nel compito di riconoscimento delle parole, ecc..) più accuratamente di modelli lessicali basati su simboli con reti lessicali (come Wordnet) [6].
L'apporto teorico maggiore, comunque, questa teoria l'ha fornita nell'ambito cognitivo-linguistico, la quale ha sempre considerato la rappresentazione del significato come una proiezione nella mente di simboli concettuali chiamati ontologie (concetto applicato alle scienze informatiche con il nome di ontologie formali). Quest'ultime sono la rappresentazione di categorie concettuali tramite linguaggi formali (simboli specifici che rappresentano la semantica delle parole) [7] [8] , i quali formano entità completamente indipendenti dal contesto, separando totalmente la competenza semantica dall'uso contestuale della stessa parola (differenza tipica della teoria generativa). La difficoltà oggettiva di questo approccio è la gestione dei significati mutevoli che si realizzano quando questi sono immersi in un contesto specifico. La semantica distribuzionale rivoluziona questo mondo attribuendo al contesto le proprietà di costruttore del significato, come allude la citazione[9]:

Viene quindi dato un nuovo modello di rappresentazione semantica, sensibile al contesto (context-sensitive) e per natura dinamico.

Applicazioni

L'arrivo di grandi corpora ha permesso a questa teoria di emergere nello studio computazionale della semantica e trovare così applicazioni concrete in modelli computazionali per la costruzione di spazi vettoriali di rappresentazione delle parole.

I modelli più noti per questi studi sono:

  • Latent semantic analysis (LSA)[10]
  • Hyperspace analogue to language[11]
  • Random indexing[12]

Tra gli algoritmi più recenti per la creazione di word embedding troviamo:

  • word2vec basato sul modello di rete neurale Skip-gram (una tecnica dove gli n-grammi memorizzano ancora un modello del linguaggio, ma permettono di saltare token)[13] che utilizza un metodo predittivo[14].
  • glove che usa metodi count-based (modello basato sul conteggio, letteralmente)[15].

Molti ricercatori hanno discusso su quale fosse il metodo migliore da utilizzare ed alcuni sono arrivati alla conclusione che un modello che utilizza metodi predittivi sia migliore [16] , altri invece sostengono che le due classi di metodi non siano drasticamente differenti a un livello fondamentale nel quale entrambi sondano le statistiche di co-occorrenze di un corpus, ma l'efficienza con cui i metodi count-based catturano le statistiche globali può essere vantaggioso[15].
I modelli distribuzionali hanno trovato moltissime applicazioni nella linguistica computazionale, tra cui la Text simplification (semplificazione del testo) [17] , che ha lo scopo di rendere il testo più facile da comprendere per i lettori umani o automatici, l'identificazione delle metafore [18] , priming semantico [19] , il ragionamento analitico[20].

Note

  1. ^ Lenci, Alessandro. "Distributional semantics in linguistic and cognitive research." Italian journal of linguistics 20.1 (2008): 1-31.
  2. ^ Church, Kenneth. "A pendulum swung too far." Linguistic Issues in Language Technology 6.5 (2011): 1-27. (PDF), su journals.linguisticsociety.org. URL consultato il 14 marzo 2017 (archiviato dall'url originale il 18 gennaio 2018).
  3. ^ CHARLES, W. (2000). Contextual correlates of meaning. Applied Psycholinguistics, 21(4), 505-524, p. 507
  4. ^ Lowe, Will. "Towards a theory of semantic space." Proceedings of the twenty-third annual conference of the cognitive science society. Philadelphia 2001, pp. 576-581.
  5. ^ Padó, Sebastian, and Mirella Lapata. "Dependency-based construction of semantic space models." Computational Linguistics 33.2 (2007): 161-199.
  6. ^ Vigliocco, Gabriella, et al. "Representing the meanings of object and action words: The featural and unitary semantic space hypothesis." Cognitive psychology 48.4 (2004): 422-488., DOI:10.1016/j.cogpsych.2003.09.001.
  7. ^ Guarino, Nicola. "Formal ontology and information systems." Proceedings of FOIS. Vol. 98. No. 1998. 1998.
  8. ^ Viinikkala, Mika. "Ontology in Information Systems." (2005).
  9. ^ George A. Miller e Walter G. Charles, Contextual correlates of semantic similarity, in Language and Cognitive Processes, vol. 6, n. 1, 1º gennaio 1991, pp. 1–28, DOI:10.1080/01690969108406936. URL consultato il 14 marzo 2017.
  10. ^ Landauer, Thomas K., and Susan T. Dumais. "A solution to Plato's problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge." Psychological review 104.2 (1997): 211.
  11. ^ Lund, Kevin, and Curt Burgess. "Producing high-dimensional semantic spaces from lexical co-occurrence." Behavior Research Methods, Instruments, & Computers 28.2 (1996): 203-208.
  12. ^ Karlgren, Jussi, and Magnus Sahlgren. "26 From Words to Understanding." (2001). Archiviato l'8 agosto 2017 in Internet Archive.
  13. ^ Guthrie, David, et al. "A closer look at skip-gram modelling." Proceedings of the 5th international Conference on Language Resources and Evaluation (LREC-2006). 2006. (PDF), su homepages.inf.ed.ac.uk. URL consultato il 10 marzo 2017 (archiviato dall'url originale il 17 maggio 2017).
  14. ^ MIKOLOV, Tomas, et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013.
  15. ^ a b Pennington, Jeffrey, Richard Socher, and Christopher D. Manning. "Glove: Global Vectors for Word Representation." EMNLP. Vol. 14. 2014.
  16. ^ Baroni, Marco, Georgiana Dinu, and Germán Kruszewski. "Don't count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors." ACL (1). 2014.
  17. ^ Siddharthan, Advaith. "Syntactic simplification and text cohesion." Research on Language and Computation 4.1 (2006): 77-109.
  18. ^ Gershman, Yulia Tsvetkov Elena Mukomel Anatole. "Cross-Lingual Metaphor Detection Using Common Semantic Features." Meta4NLP 2013 (2013): 45.
  19. ^ Jones, Michael N., Walter Kintsch, and Douglas JK Mewhort, High-dimensional semantic space accounts of priming." Journal of memory and language 55.4 (2006): 534-552., DOI:10.1016/j.jml.2006.07.003.
  20. ^ Michael Ramscar e Daniel Yarlett, Semantic grounding in models of analogy: an environmental approach, in Cognitive Science, vol. 27, n. 1, 1º gennaio 2003, pp. 41–71, DOI:10.1016/S0364-0213(02)00113-1. URL consultato il 10 marzo 2017.

Bibliografia

Voci correlate

Collegamenti esterni

Math is in the air - Semantica distribuzionale

Read other articles:

Zoran CvijanovićЗоран ЦвијановићCvijanović performing in the staging of Prah at the Isabel Bader Theatre in Toronto in April 2016.Born (1958-01-25) 25 January 1958 (age 65)Belgrade, SR Serbia, FPR YugoslaviaNationalitySerbianOccupation(s)Actor, producerYears active1975–present Zoran Cvija Cvijanović (Serbian Cyrillic: Зоран Цвија Цвијановић; born 25 January 1958) is a Serbian actor and producer. He has starred in over 70 films and television s...

 

Sufi devotional music popular in South Asia This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Qawwali – news · newspapers · books · scholar · JSTOR (September 2018) (Learn how and when to remove this template message) Part of a series on IslamSufismTomb of Abdul Qadir Gilani, Baghdad, Iraq Ideas Abdal Al-Insā...

 

Pour les articles homonymes, voir Mark, Marka et FIM. Mark finlandaisAncienne unité monétaire Pièce de 1 markka de 1988. Pays officiellementutilisateurs Finlande (1860-2002) Banque centrale Banque de Finlande Appellation locale markka Symbole local mk, Smk Code ISO 4217 FIM Sous-unité 100 pennis Taux de conversion 1 EUR = 5,945 73 FIM(1er janvier 1999) Chronologie Rouble impérial russe Euro (EUR) modifier  Le mark finlandais (en finnois : markka, en suédois : mark) a ét...

Costa Rica Botschaft Costa Ricas in Deutschland Logo Staatliche Ebene bilateral Stellung der Behörde Botschaft Aufsichts­behörde(n) Ministerium für auswärtige Angelegenheiten und Gottesdienste Bestehen seit 1952 Hauptsitz Deutschland Berlin Botschafter Antonio José Lehmann Website Botschaft Costa Ricas in Deutschland Botschaft in der Reinhardtstraße 47A Die Botschaft Costa Ricas in Berlin ist die diplomatische Vertretung der Republik Costa Rica in Deutschland. Sie befindet sic...

 

Sonia I. Seneviratne (2015) Sonia Isabelle Seneviratne (* 5. Juni 1974 in Lausanne[1]) ist eine Schweizer[2] Klimawissenschaftlerin. Sie ist seit 2016 ordentliche Professorin für Land-Klima-Dynamik an der ETH Zürich.[1] Inhaltsverzeichnis 1 Leben 2 Forschungstätigkeit 3 Veröffentlichungen (Auswahl) 4 Weblinks 5 Einzelnachweise Leben Seneviratne machte 1992 ihre Matura Typ B sowie ihr Baccalauréat Vaudois am Gymnase cantonal de Chamblandes in Pully. Danach studiert...

 

УмбрієльUmbriel Умбрієль Дані про відкриття Дата відкриття 24 жовтня 1851 Відкривач(і) Вільям Лассел Планета Уран Номер II Орбітальні характеристики Велика піввісь км Орбітальний період 4,1 діб Ексцентриситет орбіти Фізичні характеристики Видима зоряна величина 15.1 Атмосфера ві

ستيف وودن معلومات شخصية الميلاد 6 يناير 1955 (العمر 68 سنة)بيركنهيد  [لغات أخرى]‏  الطول 1.79 م (5 قدم 10 بوصة) مركز اللعب مهاجم الجنسية نيوزيلندا  المسيرة الاحترافية1 سنوات فريق م. (هـ.) 1972–1975 Cammell Laird 1907 F.C. [الإنجليزية]‏ 1975 ترانمير روفرز 3 (0) 1975–1976 New Brighton A.F.C.&...

 

この項目では、日本の農業協同組合について説明しています。 世界各国の農業協同組合については「農業協同組合 (世界)」をご覧ください。 JA及びJAグループ所属団体のロゴマーク 農業協同組合(のうぎょうきょうどうくみあい、通称:農協〈のうきょう〉)は、日本において農業者(農民又は農業を営む法人)によって組織された協同組合である。農業協同組合法に...

 

Not to be confused with Taqwacore (film). 2010 American filmThe TaqwacoresTheatrical release posterDirected byEyad ZahraScreenplay byEyad ZahraMichael Muhammad KnightStory byMichael Muhammad Knight (novel)Produced byDavid PerseAllison CarterNahal AmeriStarringDominic RainsBobby NaderiNoureen DeWulfCinematographyJP PerryEdited byJosh RosenfieldMusic byOmar FadelRelease date January 24, 2010 (2010-01-24) (Sundance) CountryUnited StatesLanguageEnglish The Taqwacores is a 2010 ...

1840s–1984 British territories in northern Borneo   British Borneo  Dutch Borneo British Borneo comprised the four northern parts of the island of Borneo, which are now the country of Brunei, two Malaysian states of Sabah and Sarawak, and the Malaysian federal territory of Labuan.[1][2] During the British colonial rule before World War II, Sarawak was known as the Raj of Sarawak (1841–1946), Sabah was known as North Borneo (1881–1946), and Labuan was ...

 

2015 American science fiction film directed by Brad Bird A World Beyond redirects here. For similar uses, see World Beyond (disambiguation). Project T redirects here. For the Japanese record label T Project, see Defstar Records. TomorrowlandTheatrical release posterDirected byBrad BirdScreenplay by Damon Lindelof Brad Bird Story by Damon Lindelof Brad Bird Jeff Jensen Based onWalt Disney's TomorrowlandProduced by Damon Lindelof Brad Bird Jeffrey Chernov Starring George Clooney Hugh Laurie Bri...

 

Noncancerous increase in size of the prostate gland Medical conditionBenign prostatic hyperplasiaOther namesBenign enlargement of the prostate (BEP, BPE), adenofibromyomatous hyperplasia, benign prostatic hypertrophy,[1] benign prostatic obstruction[1]Diagram of a normal prostate (left) and benign prostatic hyperplasia (right)SpecialtyUrologySymptomsFrequent urination, trouble starting to urinate, weak stream, inability to urinate, loss of bladder control[1]Complicatio...

Botschaft der Vereinigten Staaten in Jerusalem Die Botschaft der Vereinigten Staaten in Jerusalem ist die diplomatische Vertretung der USA in Israel. US-Botschafter in Israel war bis Juli 2023 Thomas R. Nides.[1][2] Die Botschaft wurde am 14. Mai 2018, dem 70. Jahrestag der Israelischen Unabhängigkeitserklärung, symbolisch eröffnet und ersetzte die Botschaft in Tel Aviv.[3] An der Eröffnung nahmen aus den USA unter anderem Vizeaußenminister John J. Sullivan, Finan...

 

Tourism in the Indian state of Uttarakhand Uttarakhand is a state in the northern part of India. It is often referred to as the Devbhumi (literally 'Land of the Gods') due to its religious significance and numerous Hindu temples and pilgrimage sites found throughout the state. As a result, religious tourism forms a major portion of the tourism in the state.[1] Uttarakhand is known for the natural environment of the Himalayas. 2019 Tourist Arrivals Domestic – 40,000,000 per/year and ...

 

American architect John StorykStoryk at workBornMay 10, 1946 (1946-05-10) (age 77)Alma materPrinceton UniversityOccupationArchitect & Principal at WSDG-Walters-Storyk Design GroupSpouseBeth WaltersWebsitehttps://wsdg.com/ John Storyk (born May 10, 1946) is a registered architect and acoustician who, together with wife and business partner Beth Walters, co-founded Walters-Storyk Design Group (WSDG). Beginning in 1968 with Electric Lady Studios for Jimi Hendrix in New York Ci...

This is an archive of past discussions. Do not edit the contents of this page. If you wish to start a new discussion or revive an old one, please do so on the current talk page. Archive 5 Archive 6 Archive 7 Archive 8 Archive 9 Archive 10 → Archive 15 NPA 3 warning Please do not attack other editors. If you continue, you will be blocked from editing Wikipedia. Your personal attacks, such as this, against Jaakobou, are unacceptable. Even if you honestly believe the statement, which I ...

 

Volo PNG Air 4684Un Twin Otter simile a quello coinvolto.Tipo di eventoIncidente Data11 agosto 2009 TipoVolo controllato contro il suolo causato da errore del pilota LuogoKokoda, Provincia di Oro Stato Papua Nuova Guinea Coordinate8°53′00″S 147°44′00″E / 8.883333°S 147.733333°E-8.883333; 147.733333Coordinate: 8°53′00″S 147°44′00″E / 8.883333°S 147.733333°E-8.883333; 147.733333 Tipo di aeromobilede Havilland Canada DHC-6 Twin Otter O...

 

State prison in Clark County, Nevada, US For the California prison, see High Desert State Prison (California). High Desert State PrisonLocationClark County, NevadaCoordinates36°30′45″N 115°34′56″W / 36.5125°N 115.5822°W / 36.5125; -115.5822StatusOperationalSecurity classMedium-maximumCapacity4,176Population(%)Opened1 September 2000Managed byNevada Department of CorrectionsWardenCalvin Johnson High Desert State Prison is a state prison in unincorporated Clar...

Analisis kecepatan lepas oleh Isaac Newton. Proyektil A dan B jatuh kembali ke Bumi. Proyektil C mencapai orbit lingkaran, D orbit elips. Proyektil E lepas. Dalam ilmu fisika, kecepatan lepas (bahasa Inggris: escape velocity) adalah kecepatan ketika energi kinetis dan energi potensial gravitasi suatu objek adalah nol.[nb 1] Inilah kecepatan yang dibutuhkan untuk terlepas dari medan gravitasi tanpa dorongan lebih lanjut. Untuk benda bulat simetris, kecepatan lepasnya dihitung mengg...

 

AmonitaHablado en AmánActualmente: JordaniaRegión Levante mediterráneoLengua muerta alrededor del siglo V a. C.Familia Afroasiático Semítico   Semítico central    Semítico noroccidental     Lenguas cananeas       Idioma hebreo        AmonitaEscritura alfabeto semítico Reino de Amón en el siglo IX a. C. [editar datos en Wikidata] El...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!