Видобування термінології (інші назви — видобуваннятермінів, видобуванняглосарія, розпізнавання термінів, видобуток термінології) — одна із задач у рамках видобування інформації. Метою видобування термінології є автоматичне віднайдення термінів певної предметної області в наявному корпусі текстів[1].
Одним із перших кроків до моделювання предметної області є складання словника релевантних термінів, який стає мовним унаочненням її понять. У літературі описано кілька методів автоматичного видобування технічних термінів зі сховищ документів[5][6][7][8][9][10][11][12][13][14][15][16].
Як правило, для автоматичного виділення термінів використовують засоби обробки мови (розмічування частин мови, виокремлення фраз), за допомогою яких визначають термінологічні кандидати — тобто синтаксично вірогідні термінологічні іменникові групи.
Іменникові групи включають:
іменникові словосполучення (наприклад, «рада директорів»)
прикметникові іменникові словосполучення (наприклад, «кредитна картка»)
прийменникові іменникові словосполучення (наприклад, «лоток для відходів»).
Зокрема, в англійській мові найчастіше зустрічаються перші два типи (іменникові та іменникові словосполучення)[1].
Після цього терміни, які увійшли в список кандидатів, обробляються за допомогою методів статистики і машинного навчання. Відфільтровані таким чином терміни матимуть низьку неоднозначність і високу специфічність, тому вони особливо корисні для концептуалізації області знань і для підтримки створення онтології області або термінологічної бази.
Методи видобування термінології застосовні не тільки до одномовних, а й до паралельних корпусів. У поєднанні, наприклад, зі статистикою спільного входження можна створити список кандидатів для перекладу термінів[17]. Двомовну термінологію можна також витягти із порівнянних корпусів[18] (тобто корпусів, які містять тексти в межах одного текстового типу і належать до однієї предметної області, але не містять перекладів).
↑ абAlrehamy, Hassan H; Walker, Coral (2018). SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation. Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. Т. 650. с. 222—235. doi:10.1007/978-3-319-66939-7_19. ISBN978-3-319-66938-0.
↑Collier, N.; Nobata, C.; Tsujii, J. (2002). Automatic acquisition and classification of terminology using a tagged corpus in the molecular biology domain. Terminology. 7 (2): 239—257. doi:10.1075/term.7.2.07col.
↑Sclano, F. and Velardi, P. [Архівовано 2012-05-04 у Wayback Machine.]. TermExtractor: a Web Application to Learn the Shared Terminology of Emergent Web Communities. To appear in Proc. of the 3rd International Conference on Interoperability for Enterprise Software and Applications (I-ESA 2007). Funchal (Madeira Island), Portugal, March 28–30th, 2007.
↑Sharoff, Serge; Rapp, Reinhard; Zweigenbaum, Pierre; Fung, Pascale (2013), Building and Using Comparable Corpora(PDF), Berlin: Springer-Verlag, архів оригіналу(PDF) за 11 травня 2021, процитовано 5 квітня 2023