Тематическое моделирование

Анимация процесса определения темы в матрице документ-слово
Построение тематической модели документа: :  — матрица искомых условных распределений слов по темам : матрица искомых условных распределений тем по документам :  — документ :  — слово :  — наблюдаемые переменные :  — тема (скрытая переменная)

Тематическое моделирование — способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов[1].

Тематическая модель (англ. topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему[2].

Переход из пространства терминов в пространство найденных тематик помогает разрешать синонимию и полисемию терминов, а также эффективнее решать такие задачи, как тематический поиск, классификация, суммаризация и аннотация коллекций документов и новостных потоков.

Тематическое моделирование как вид статистических моделей для нахождения скрытых тем, встреченных в коллекции документов, нашло своё применение в таких областях, как машинное обучение и обработка естественного языка. Исследователи используют различные тематические модели для анализа текстов, текстовых архивов документов, для анализа изменения тем в наборах документов. Интуитивно понимая, что документ относится к определённой теме, в документах, посвящённых одной теме, можно встретить некоторые слова чаще других. Например: «собака» и «кость» встречаются чаще в документах про собак, «кошки» и «молоко» будут встречаться в документах о котятах, предлоги «и» и «в» будут встречаться в обеих тематиках. Обычно документ касается нескольких тем в разных пропорциях, таким образом, документ в котором 10 % темы составляют кошки, а 90 % темы — собаки, можно предположить, что слов про собак в 9 раз больше. Тематическое моделирование отражает эту интуицию в математической структуре, которая позволяет на основании изучения коллекции документов и исследования частотных характеристик слов в каждом документе сделать вывод, что каждый документ — это некоторый баланс тем.

Наибольшее применение в современных приложениях находят подходы, основанные на Байесовских сетях — вероятностных моделях на ориентированных графах. Вероятностные тематические модели — это относительно молодая область исследований в теории самообучения. Одним из первых был предложен вероятностный латентно-семантический анализ (PLSA), основанный на принципе максимума правдоподобия, как альтернатива классическим методам кластеризации, основанным на вычислении функций расстояния. Вслед за PLSA был предложен метод латентного размещения Дирихле и его многочисленные обобщения[3].

Вероятностные тематические модели осуществляют «мягкую» кластеризацию, позволяя документу или термину относиться сразу к нескольким темам с различными вероятностями. Вероятностные тематические модели описывает каждую тему дискретным распределением на множестве терминов, каждый документ — дискретным распределением на множестве тем. Предполагается, что коллекция документов — это последовательность терминов, выбранных случайно и независимо из смеси таких распределений, и ставится задача восстановления компонентов смеси по выборке[4].

Хотя тематическое моделирование традиционно описывалось и применялось в обработке естественного языка, оно нашло своё применение и в других областях, например, таких как биоинформатика.

История

Первое описание тематического моделирования появилось в работе Рагавана, Пападимитриу, Томаки и Вемполы 1998 года[5]. Томас Хофманн в 1999 году[6] предложил вероятностное скрытое семантическое индексирование (PLSI). Одна из самых распространенных тематических моделей — это латентное размещение Дирихле (LDA), эта модель является обобщением вероятностного семантического индексирования и разработана Дэвидом Блейем (англ. David Blei), Эндрю Ыном и Майклом Джорданом (англ. Michael I. Jordan) в 2002 году[7]. Другие тематические модели как правило являются расширением LDA, например, размещение патинко улучшает LDA за счёт введения дополнительных корреляционных коэффициентов для каждого слова, которое составляет тему.

Тематические исследования

Тэмплтон сделал обзор работ по тематическому моделированию в гуманитарных науках, сгруппированных по синхронному и диахроническому подходу[8]. Синхронные подходы выделяют темы в некоторый момент времени, например, Джокерс с помощью тематической модели исследовал, о чём писали блогеры в День Цифровых Гуманитарных наук в 2010 году[9].

Диахронические подходы, включая определение Блока и Ньюмана о временной динамике тем в Пенсильванской газете 1728—1800 года[10]. Грифитс и Стейверс использовали тематическое моделирование для обзоров журнала PNAS, определяли изменения популярности тем с 1991 по 2001 год[11]. Блевин создал тематическую модель дневника Марты Балладс[12]. Мимно использовал тематическое моделирование для анализа 24 журналов по классической филологии и археологии за 150 лет, чтобы определить изменения популярности тем и узнать, насколько сильно изменились журналы за это время[13].

Алгоритмы тематического моделирования

В работе Дэвида Блея «Введение в тематическое моделирование» рассмотрен наиболее популярный алгоритм Латентное размещение Дирихле[14]. На практике исследователи используют одну из эвристик метода максимального правдоподобия, методы сингулярного разложения (SVD), метод моментов, алгоритм, основанный на неотрицательной матрице факторизации (NMF), вероятностные тематические модели, вероятностный латентно-семантический анализ, латентное размещение Дирихле. В работе Воронцова К. В. рассмотрены вариации основных алгоритмов тематического моделирования: робастная тематическая модель, тематические модели классификации, динамические тематические модели, иерархические тематические модели, многоязычные тематические модели, модели текста как последовательности слов, многомодальные тематические модели [2].

Вероятностные тематические модели основаны на следующих предположениях [15] [16] [17] [18]:

  • Порядок документов в коллекции не имеет значения
  • Порядок слов в документе не имеет значения, документ — мешок слов
  • Слова, встречающиеся часто в большинстве документов, не важны для определения тематики
  • Коллекцию документов можно представить как выборку пар документ-слово , ,
  • Каждая тема описывается неизвестным распределением на множестве слов
  • Каждый документ описывается неизвестным распределением на множестве тем
  • Гипотеза условной независимости

Построить тематическую модель — значит, найти матрицы и по коллекции В более сложных вероятностных тематических моделях некоторые из этих предположений заменяются более реалистичными.

Вероятностный латентно-семантический анализ

Вероятностный латентно-семантический анализ (PLSA).  — документ,  — слово,  — наблюдаемые переменные,  — тема (скрытая переменная),  — априорное распределение на множестве документов,  — искомые условные распределения,  — коллекция документов,  — длина документа в словах

Вероятностный латентно-семантический анализ (PLSA) предложен Томасом Хофманном в 1999 году. Вероятностная модель появления пары «документ-слово» может быть записана тремя эквивалентными способами:

где  — множество тем;

 — неизвестное априорное распределение тем во всей коллекции;
 — априорное распределение на множестве документов, эмпирическая оценка , где  — суммарная длина всех документов;
 — априорное распределение на множестве слов, эмпирическая оценка , где  — число вхождений слова во все документы;

Искомые условные распределения выражаются через по формуле Байеса:

Для идентификации параметров тематической модели по коллекции документов применяется принцип максимума правдоподобия, который приводит к задаче максимизации функционала[19]

при ограничениях нормировки

где  — число вхождений слова в документ . Для решения данной оптимизационной задачи обычно применяется EM-алгоритм.

Основные недостатки PLSA:

  • Число параметров растёт линейно по числу документов в коллекции, что может приводить к переобучению модели.
  • При добавлении нового документа в коллекцию распределение невозможно вычислить по тем же формулам, что и для остальных документов, не перестраивая всю модель заново.

Латентное размещение Дирихле

Латентное размещение Дирихле LDA. : — слово (наблюдаемая переменная) : — тема (скрытая переменная) : — коллекция документов : — длина документа в словах : — количество тем в коллекции : — распределение тем в документе : — распределение слов в теме

Метод латентного размещения Дирихле (LDA) предложен Дэвидом Блеем в 2003 году.

В этом методе устранены основные недостатки PLSA.

Метод LDA основан на той же вероятностной модели

при дополнительных предположениях:

  • вектора документов порождаются одним и тем же вероятностным распределением на нормированных -мерных векторах; это распределение удобно взять из параметрического семейства распределений Дирихле ;
  • вектора тем порождаются одним и тем же вероятностным распределением на нормированных векторах размерности ; это распределение удобно взять из параметрического семейства распределений Дирихле .

Для идентификации параметров модели LDA по коллекции документов применяется семплирование Гиббса, вариационный байесовский вывод или метод распространения ожидания[англ.] (Expectation propagation).

См. также

Примечания

Литература

Ссылки

Программное обеспечение и программные библиотеки

Read other articles:

Zobacz też: inne znaczenia słowa „domena”. Schematyczne przedstawienie podstawowych jednostek używanych w klasyfikacji biologicznej. Kolejno od góry: życie, domena, królestwo, typ (w zoologii) lub gromada (w botanice), gromada (w zoologii) lub klasa (w botanice), rząd, rodzina, rodzaj i gatunek Domena (dominium) – kategoria systematyczna wyższa od królestwa, stosowana w klasyfikacji biologicznej, zaproponowana w 1974 przez Royalla T. Moore’a, a wprowadzona w 1990 przez Carla ...

 

ВальдвестроффWaldweistroff   Країна  Франція Регіон Гранд-Ест  Департамент Мозель  Округ Тьйонвіль Кантон Сьєрк-ле-Бен Код INSEE 57739 Поштові індекси 57320 Координати 49°21′36″ пн. ш. 6°29′48″ сх. д.H G O Висота 224 - 291 м.н.р.м. Площа 7,73 км² Населення 510 (01-2020[1]) Густота 62,...

 

Florida Scenic HighwaysA Florida Scenic Highway sign, along SR A1A in North Peninsula State Park.Highway namesInterstatesInterstate X (I-X)US HighwaysU.S. Route X (US X)StateRoute X (SR X)County routes:County Route X (CR X)System links Florida State Highway System Interstate US State Former Pre‑1945 Toll Scenic Florida Scenic Highways are a collection of scenic highways in Florida organized and managed by the Florida Department of Transportation, through the Florida Scenic Highways...

Piala UEFA 2000–01Westfalenstadion, Dortmund tuan rumah final.Jadwalpenyelenggaraan8 Agustus 2000 – 16 Mei 2001Hasil turnamenJuara Liverpool (gelar ke-3)Tempat kedua AlavésStatistik turnamenJumlahpertandingan205Jumlah gol566 (2,76 per pertandingan)← 1999–2000 2001–02 → Liverpool memenangkan Piala UEFA 2000–01 melalui gol emas di babak final saat menghadapi tim dari Spanyol, Alavés. Ini adalah gelar ketiga bagi Liverpool dalam kompetisi ini. Gelar ini melengkapi tr...

 

Charles George GordonJulukanChinese Gordon, Gordon Pasha, Gordon dari KhartoumLahir28 Januari 1833London, InggrisMeninggal26 Januari 1885(1885-01-26) (umur 51)Khartoum, SudanPengabdian Britania Raya MesirDinas/cabang Angkatan Darat Britania Raya Angkatan Darat MesirLama dinas1852–1885PangkatMayor JenderalKomandanGubernur-Jenderal SudanPerang/pertempuranPerang KrimeaPengepungan SevastopolPertempuran KinburnPerang Candu KeduaPemberontakan TaipingPertempuran CixiPertem...

 

Храми Переяслава — визначні архітектурні пам'ятки. В числі інших пам'яток Переяслава включені до Національного історико-етнографічного заповідника «Переяслав». Малюнок Т. Шевченка «Вознесенський собор в Переяславі», 1845 Зміст 1 Вознесенський монастир (к. XVII—XVIII ст....

PT AIG Insurance IndonesiaJenisJasa keuanganDidirikanJakarta, Indonesia (1991)Kantorpusat Jakarta, IndonesiaTokohkunciRobert E Logie Presiden DirekturSitus webwww.aig.co.id AIG Insurance Indonesia adalah perusahaan asuransi umum yang berdiri sejak tahun 1991 dan berkantor pusat di Jakarta. AIG Insurance Indonesia merupakan anak raksasa asuransi asal Amerika Serikat, American International Group (AIG). Kiprah AIG di Indonesia pada bidang asuransi umum bermula ketika pada tahun 1974, perusahaan...

 

Watu Ngelak Watu Ngelak adalah sebuah situs bersejarah berupa sebuah batu besar yang membentang di pinggir Kali Opak. Situs ini berada di Dusun Puton, Desa Trimulyo, Jetis, Bantul. Menurut penduduk setempat, Watu Ngelak adalah tempat Sultan Agung Hanyakrakusumo bersemedi. Watu Ngelak di Dusun Puton memiliki nilai sejarah yang telah dipercaya masyarakat secara turun temurun. Sejarah nama Watu Ngelak berawal ketika Sultan Agung Hanyakrakusumo berkelana dari Kraton Pleret. Ia menyusuri Sungai Op...

 

Simona De Silvestro Simona De Silvestro Nascimento 1 de setembro de 1988 (35 anos)Tune Cidadania Suíça Ocupação piloto Página oficial https://simonadesilvestro.ch/ [edite no Wikidata] Simona de Silvestro (Thun, 1 de setembro de 1988) é uma piloto profissional de automóveis suíça. Atualmente ela está confirmada para disputar a temporada 2015–16 da Fórmula E pela equipe Andretti Autosport. Carreira[1] Início: 2002-2005 Em 2002 e 2003 conseguiu um segundo lugar no Trofeo Indust...

يو-65 الجنسية  ألمانيا النازية الشركة الصانعة إيه جي فيزر[1]  المالك  كريغسمارينه المشغل كريغسمارينه (15 فبراير 1940–28 أبريل 1941)[1]  المشغلون الحاليون وسيط property غير متوفر. المشغلون السابقون وسيط property غير متوفر. التكلفة وسيط property غير متوفر. منظومة التعاريف الاَ...

 

يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. فضلاً، ساهم في تطوير هذه المقالة من خلال إضافة مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (سبتمبر 2021) قائمة ميداليات الألعاب البارالمبية الشتوية 2006 عبارة عن قائمة باللجان البارالمبية الوطنية مصنفة حسب عدد ...

 

普密蓬·阿杜德ภูมิพลอดุลยเดช泰国先王普密蓬·阿杜德(攝於2010年)泰国国王統治1946年6月9日-2016年10月13日(70年126天)加冕1950年5月5日前任阿南塔玛希敦繼任玛哈·哇集拉隆功总理见列表出生(1927-12-05)1927年12月5日 美國马萨诸塞州剑桥奥本山醫院(英语:Mount Auburn Hospital)逝世2016年10月13日(2016歲—10—13)(88歲) 泰國曼谷西里拉醫院安葬曼谷僧王寺...

Public park in Manhattan, New York This article is about the park in Manhattan. For the park in Brooklyn, see East River State Park. For the park in Queens formerly known as East River Park, see Astoria Park. East River ParkLocationManhattan, New YorkCoordinates40°43′03″N 73°58′27″W / 40.71750°N 73.97417°W / 40.71750; -73.97417Etymologynamed after John V. LindsayStatusPartially Open / Under Construction The walkway in the park, with decades old trees (all t...

 

Tram stop in Dublin, Ireland TallaghtTamhlachtTallaght stop, as seen from beyond the buffersGeneral informationLocationDublinIrelandCoordinates53°17′15″N 6°22′29″W / 53.28748243338293°N 6.3746674870170255°W / 53.28748243338293; -6.3746674870170255Owned byTransdevOperated byLuasLine(s)RedPlatforms2ConstructionStructure typeAt-gradeOther informationFare zoneRed 4Key dates26 September 2004Station openedServices Preceding station Luas Following station Terminus...

 

American actor (1911-1982) You can help expand this article with text translated from the corresponding article in Japanese. (May 2017) Click [show] for important translation instructions. View a machine-translated version of the Japanese article. Machine translation, like DeepL or Google Translate, is a useful starting point for translations, but translators must revise errors as necessary and confirm that the translation is accurate, rather than simply copy-pasting machine-translated t...

IM Flash SingaporeTypeNon-publicIndustrySemiconductor integrated circuitryFounded2007FateIntel's stake acquired by Micron Technology in April 2012. Company became wholly owned by Micron.HeadquartersSingapore IM Flash Singapore LLP is a semiconductor company founded in February 2007, by Micron Technology and Intel Corporation. The joint-venture was set up to produce NAND Flash memory for the 2 owners, and was the second site set up, after the success of IM Flash Technologies. It was located in...

 

Radio station in West Plains, MissouriKKDYWest Plains, MissouriFrequency102.5 MHzBrandingHot Country 102.5ProgrammingFormatCountryOwnershipOwnerGreg Hoskins(Better Newspapers, Inc.)Sister stationsKSPQ, KUKU-FM, KUPH, KWPMHistoryFirst air dateMarch 31, 1984Former frequencies102.3 MHz (1984–1994)Technical informationFacility ID39544ClassC2ERP50,000 wattsHAAT148 meters (486 feet)Transmitter coordinates36°41′22″N 91°53′45″W / 36.68944°N 91.89583°W / 36.68944;...

 

1989 Indian general election ← 1984 November 1989 1991 → 20 seatsTurnout79.30% (2.18%)   First party Second party Third party   Party INC CPI(M) CPI Alliance UDF LDF LDF Last election 13 1 0 Seats won 14 2 0 Seat change 1 1 - Percentage 41.70% 22.87% 6.20%   Fourth party   Party IUML Alliance UDF Last election 2 Seats won 2 Seat change - Percentage 5.23% KeralaThe 1989 Indian general election were held to elect 20 members...

1986 (1986) United Kingdom budgetPresented18 March 1986Parliament49thPartyConservative PartyChancellorNigel Lawson‹ 19851987 › The 1986 United Kingdom budget was delivered by Nigel Lawson, the Chancellor of the Exchequer, to the House of Commons on 18 March 1986. It was the third budget to be presented by Lawson, and saw the start of a programme of tax cuts initiated under the leadership of Conservative Prime Minister Margaret Thatcher. Lawson set the theme of his budget as...

 

1967 film by R. G. Springsteen This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Hostile Guns – news · newspapers · books · scholar · JSTOR (May 2019) (Learn how and when to remove this template message) Hostile GunsDirected byR. G. SpringsteenScreenplay bySteve FisherSloan NibleyProduced byA.C. LylesStarringG...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!