Умо́вні випадко́ві поля́ (УВП, англ. conditional random fields, CRFs) — це клас методів статистичного моделювання, які часто застосовують в розпізнаванні образів та машинному навчанні, й використовують для структурового передбачування. УВП належать до родини моделювання послідовностей. На відміну від дискретного класифікатора, який передбачує мітку для окремого зразка без врахування «сусідніх» зразків, УВП може брати до уваги контекст; наприклад, лінійно-ланцюгове УВП (що є популярним в обробці природної мови) передбачує послідовності міток для послідовностей входових зразків.
УВП є одним з типів розрізнювальних неспрямованих імовірнісних графових моделей. Їх використовують для кодування відомих взаємозв'язків між спостереженнями та побудови узгоджених представлень, і часто використовують для розмічування[en] або розбирання послідовних даних, таких як обробка природних мов та біологічні послідовності,[1] та в комп'ютерному баченні.[2] Зокрема, УВП, серед інших задач, знаходять застосування в розмічуванні частин мови, поверхнево-синтаксичному аналізі,[3] розпізнаванні іменованих сутностей,[4] пошуку генів[en] та пошуку пептидних критичних функційних областей,[5] будучи альтернативою спорідненим прихованим марковським моделям (ПММ). У комп'ютерному зорі УВП часто використовують для розпізнавання об'єктів[6] та сегментування зображень.
Лафферті[en], Маккалум[en] та Перейра[1] визначили УВП на спостереженнях X {\displaystyle {\boldsymbol {X}}} та випадкових змінних Y {\displaystyle {\boldsymbol {Y}}} наступним чином:
Нехай G = ( V , E ) {\displaystyle G=(V,E)} є таким графом, що Y = ( Y v ) v ∈ V {\displaystyle {\boldsymbol {Y}}=({\boldsymbol {Y}}_{v})_{v\in V}} , так що Y {\displaystyle {\boldsymbol {Y}}} індексовано вершинами G {\displaystyle G} . Тоді ( X , Y ) {\displaystyle ({\boldsymbol {X}},{\boldsymbol {Y}})} є умовним випадковим полем, коли випадкові змінні Y v {\displaystyle {\boldsymbol {Y}}_{v}} , обумовлені X {\displaystyle {\boldsymbol {X}}} , володіють марковською властивістю по відношенню до цього графу: p ( Y v | X , Y w , w ≠ v ) = p ( Y v | X , Y w , w ∼ v ) {\displaystyle p({\boldsymbol {Y}}_{v}|{\boldsymbol {X}},{\boldsymbol {Y}}_{w},w\neq v)=p({\boldsymbol {Y}}_{v}|{\boldsymbol {X}},{\boldsymbol {Y}}_{w},w\sim v)} , де w ∼ v {\displaystyle {\mathit {w}}\sim v} означає, що w {\displaystyle w} та v {\displaystyle v} є сусідами в G {\displaystyle G} .
Нехай G = ( V , E ) {\displaystyle G=(V,E)} є таким графом, що
Y = ( Y v ) v ∈ V {\displaystyle {\boldsymbol {Y}}=({\boldsymbol {Y}}_{v})_{v\in V}} , так що Y {\displaystyle {\boldsymbol {Y}}} індексовано вершинами G {\displaystyle G} . Тоді ( X , Y ) {\displaystyle ({\boldsymbol {X}},{\boldsymbol {Y}})} є умовним випадковим полем, коли випадкові змінні Y v {\displaystyle {\boldsymbol {Y}}_{v}} , обумовлені X {\displaystyle {\boldsymbol {X}}} , володіють марковською властивістю по відношенню до цього графу: p ( Y v | X , Y w , w ≠ v ) = p ( Y v | X , Y w , w ∼ v ) {\displaystyle p({\boldsymbol {Y}}_{v}|{\boldsymbol {X}},{\boldsymbol {Y}}_{w},w\neq v)=p({\boldsymbol {Y}}_{v}|{\boldsymbol {X}},{\boldsymbol {Y}}_{w},w\sim v)} , де w ∼ v {\displaystyle {\mathit {w}}\sim v} означає, що w {\displaystyle w} та v {\displaystyle v} є сусідами в G {\displaystyle G} .
Це означає, що УВП є неспрямованою графовою моделлю, чиї вершини може бути поділено на рівно дві неперетинні множини X {\displaystyle {\boldsymbol {X}}} та Y {\displaystyle {\boldsymbol {Y}}} , спостережувані та виходові змінні, відповідно; тоді моделюють умовний розподіл p ( Y | X ) {\displaystyle p({\boldsymbol {Y}}|{\boldsymbol {X}})} .
Для графів загального вигляду задача точного висновування в УВП є нерозв'язною. Задача висновування для УВП є по суті такою ж, як і для МВП[en], і мають місце ті самі аргументи.[7] Проте, існують особливі випадки, для яких висновування є здійсненним:
Якщо точне висновування є неможливим, то можливо застосовувати декілька алгоритмів для отримування наближених розв'язків. До них належать:
Навчання параметрів θ {\displaystyle \theta } зазвичай виконують навчанням максимальної правдоподібності для p ( Y i | X i ; θ ) {\displaystyle p(Y_{i}|X_{i};\theta )} . Якщо всі вузли мають розподіли експоненційного сімейства, та є спостережуваними під час тренування, то ця оптимізація є опуклою.[7] Її можливо розв'язувати, наприклад, застосуванням алгоритмів градієнтного спуску, або квазі-ньютоновими методами, такими як алгоритм L-BFGS[en]. З іншого боку, якщо деякі змінні є неспостережуваними, то для цих змінних має бути розв'язано задачу висновування. Для графів загального вигляду точне висновування є непіддатливим, тож мають застосовуватися наближення.
У послідовнісному моделюванні, граф, який становить інтерес, зазвичай є ланцюговим. Входова послідовність спостережуваних змінних X {\displaystyle X} представляє послідовність спостережень, а Y {\displaystyle Y} представляє приховану (або невідому) змінну стану, висновки про яку потрібно отримувати зі спостережень. Y i {\displaystyle Y_{i}} структурують так, щоби утворити ланцюг, з ребрами між кожними Y i − 1 {\displaystyle Y_{i-1}} та Y i {\displaystyle Y_{i}} . Маючи просте представлення Y i {\displaystyle Y_{i}} як «міток» для кожного з елементів послідовності входу, це компонування також уможливлює дієві алгоритми для:
Умовну залежність кожної з Y i {\displaystyle Y_{i}} від X {\displaystyle X} визначають через фіксований набір функцій ознак вигляду f ( i , Y i − 1 , Y i , X ) {\displaystyle f(i,Y_{i-1},Y_{i},X)} , які можливо розглядати як вимірювання на послідовності входу, що частково визначають правдоподібність кожного з можливих значень Y i {\displaystyle Y_{i}} . Ця модель призначує кожній ознаці числову вагу, й поєднує їх для визначення ймовірності певного значення Y i {\displaystyle Y_{i}} .
Лінійно-ланцюгові УВП мають багато таких же застосувань, як і концептуально простіші приховані марковські моделі (ПММ), але послаблюють деякі вихідні положення щодо розподілів послідовностей входу та виходу. ПММ можливо грубо розуміти як УВП з дуже особливими функціями ознак, які використовують сталі ймовірності для моделюванні переходів станів та виходів. І навпаки, УВП можливо грубо розуміти як узагальнення ПММ, яке робить сталі ймовірності переходів довільними функціями, що міняться над позиціями в послідовності прихованих станів, залежно від послідовності входу.
Примітно, що, на противагу до ПММ, УВП можуть містити будь-яке число функцій ознак, ці функції ознак можуть оглядати всю послідовність входу X {\displaystyle X} в будь-який момент висновування, і спектрові функцій ознак не потрібно мати ймовірнісної інтерпретації.
УВП можливо розширити до моделей вищих порядків, зробивши кожну з Y i {\displaystyle Y_{i}} залежною від фіксованого числа k {\displaystyle k} попередніх змінних Y i − k , . . . , Y i − 1 {\displaystyle Y_{i-k},...,Y_{i-1}} . У звичайних формулюваннях УВП вищих порядків тренування та висновування є дієвими лише для маленьких значень k {\displaystyle k} (таких як k ≤ 5),[8] оскільки їхня обчислювальна витратність зростає з k {\displaystyle k} експоненційно.
Проте, іншому нещодавньому просуванню вдалося поліпшити ці нюанси шляхом задіювання понять та інструментів з області баєсової непараметрії. Конкретніше, УВП-нескінченний (англ. CRF-infinity) підхід[9] становить УВП-модель, здатну навчатися нескінченно тривалої часової динаміки масштабованою манерою. Це здійснюється введенням новітньої функції потенціалу для УВП, яка ґрунтується на «запам'ятовувачі послідовностей» (ЗП, англ. Sequence Memoizer, SM), непараметричній баєсовій моделі для навчання нескінченно тривалих динамік у послідовних спостереженнях.[10] Щоби зробити таку модель обчислювально піддатливою, УВП-нескінченність застосовує наближення середнього поля[11] запостульованих новітніх функцій потенціалу (які веде ЗП). Це дозволяє винаходити дієві алгоритми наближеного тренування та висновування для цієї моделі, не підриваючи її здатності схоплювати та моделювати часові залежності довільної тривалості.
Існує ще одне узагальнення УВП, напівма́рковське умо́вне випадко́ве по́ле (напів-УВП, англ. semi-Markov conditional random field, semi-CRF), яке моделює сегментування довільної довжини послідовності міток Y {\displaystyle Y} .[12] Воно забезпечує майже таку ж потужність для моделювання довготривалих залежностей Y i {\displaystyle Y_{i}} , як і УВП вищих порядків, за помірних обчислювальних витрат.
Нарешті, як альтернативу процедурі тренування УВП можливо розглядати моделі з широким розділенням (англ. large-margin models) для структурового передбачування, такі як структурові опорно-векторні машини[en].
Лате́нтно-динамі́чні умо́вні випадко́ві по́ля (ЛДУВП, англ. latent-dynamic conditional random fields, LDCRF), або розрі́знювальні імові́рнісні моде́лі з лате́нтними змі́нними (РІМЛЗ, англ. discriminative probabilistic latent variable models, DPLVM) — це один із типів УВП для задач маркування послідовностей. Вони є моделями з латентними змінними[en], що тренують розрізнювально.
В ЛДУВП, як і в будь-якій задачі маркування послідовностей, для заданої послідовності спостережень x = x 1 , … , x n {\displaystyle x_{1},\dots ,x_{n}} головною задачею, яку ця модель мусить розв'язати, є як призначити послідовність міток y = y 1 , … , y n {\displaystyle y_{1},\dots ,y_{n}} з однієї скінченної множини міток Y. Замість моделювати P(y|x) безпосередньо, як робило би звичайне лінійно-ланцюгове УВП, між x та y «вставляють» множину латентних змінних h, застосовуючи ланцюгове правило ймовірності:[13]
Це дозволяє схоплювати латентну структуру між спостереженнями та мітками.[14] В той час як ЛДУВП може бути треновано з використанням квазі-ньютонових методів, для них на основі алгоритму структурового перцептрону Коллінза також було розроблено особливу версію алгоритму перцептрону, названу перцептро́ном з лате́нтними змі́нними (англ. latent-variable perceptron).[13] Ці моделі знаходять застосування в комп'ютерному баченні, зокрема в розпізнаванні жестів[en] для потоків відео,[14] та в поверхнево-синтаксичному аналізі.[13]
Це — частковий перелік програмного забезпечення, що втілює загальні інструменти УВП.
Це — частковий перелік програмного забезпечення, що втілює пов'язані з УВП інструменти.
{{cite conference}}