Препознавање говора (у многим контекстима такође познато и као аутоматско препознавање говора, рачунарско препознавање говора, или, као што се погрешно назива, препознавање гласова) је процес преобраћања говорних сигнала у низ речи, уз помоћ алгоритма имплементираног као рачунарски програм. Примена препознавања говора која се појавила у последњих неколико година укључује гласовно бирање или гласовно позивање (voice dialing, нпр. Позови кућу), усмеравање позива (нпр. Хтео бих да остварим позив на рачун саговорника), унос једноставних података (нпр. унос броја кредитне картице), припрема структурираних докумената (нпр. радиолошки извештај) и говорна аудио претрага заснована на садржају (нпр. наћи подкаст где су изговорене одређене речи).[1]
Препознавање гласа или препознавање говорника је сродан процес који покушава да идентификује особу која говори наспрам онога што је изречено.
Технологија препознавања говора
Када говоримо о технологији, већина техничких уџбеника данас истиче употребу скривеног Марковљевог модела као основну технологију. Приступ динамичног програмирања, приступ заснован на неуронској мрежи и приступ учења заснован на знању, били су интензивно проучавани током 1980-их и 1990-их.
Перформанса система препознавања говора
Перформанса система препознавања говора је обично одређена у погледу прецизности и брзине. Прецизност је мерена стопом погрешних речи, док је брзина мерена фактором реалног времена.
Већина корисника препознавања говора би се сложила да машине за диктирање могу постићи велики успех у контролисаним условима. До забуне долази мешањем употребе термина препознавање говора и диктат.
Системи диктирања који су условљени говорником и који захтевају кратак период обуке могу са веома високом тачношћу ухватити континуиран говор са великим вокабуларом изречен нормалним темпом. Већина комерцијалних компанија тврди да софтвер за препознавање може да достигне између 98% и 99% тачности (погреши једну до две речи од сто) ако ради под оптималним, односно најповољнијим условима. Под оптималним условима се обично подразумева да субјекти који се тестирају имају
карактеристике које се подударају са подацима за обуку
одговарајућу адаптацију говорника
чисто, односно празно окружење (нпр. канцеларију).
Ово објашњава зашто неки корисници, поготову они са нагласком, могу сматрати да је стопа препознавања много нижа од очекиваних 98% до 99%.
Други системи, ограниченог вокабулара, који не захтевају никакву обуку, могу препознати мали број речи (нпр. десет цифара) код већине говорника. Овакви системи су популарни за усмеравање долазећих телефонских позива на њихове дестинације у великим организацијама.
И акустичко моделовање и језичко моделовање су важне студије у модерном статистичком препознавању говора. У овом приступу, усредсредићемо се на објашњење употребе скривеног Марковљевог модела јер је широко употребљаван у многим системима. (Језичко моделовање има многе друге примене као што је паметна тастатура и класификација докумената; молимо погледајте одговарајуће одреднице)
Приступи статистичког препознавања говора
Препознавање говора засновано на скривеном Марковљевом моделу
Модерни системи препознавања говора опште намене обично су засновани на скривеним Марковљевим моделима. Ово је статистички модел који производи низ симбола или квантитета.
Један могући разлог због којег се скривени Марковљеви модели употребљавају у препознавању говора јесте то што се говорни сигнал може посматрати као по деловима стационарни сигнал или краткотрајан стационарни сигнал. То јест, може се претпоставити да, у кратком временском периоду од 10 милисекунди, говор може бити схваћен као стационаран процес. О говору се, према томе, може мислити као о Марковљевом моделу за многе стохастичке процесе (познате као претпоставке).
Други разлог због којег су скривени Марковљеви модели популарни је зато што могу бити обучени аутоматски и зато што су једноставни и практични за рачунарску употребу. У препознавању говора, да бисмо произвели најједноставнију могућу поставку, скривени Марковљев модел би требало да произведе низ n-димензионалних вектора од праве вредности, при чему је n, рецимо, око 13, производећи по један на сваких 10 милисекунди. Вектори, опет у најједноставнијем случају, би се састојали од кепстралних (cepstral) коефицијента, који се добијају коришћењем Фуријеове трансформације краткотрајног прозора говора и декорелације спектра коришћењем косинусне трансформације и онда узимањем првих (најзначајнијих) коефицијената. Скривени Марковљев модел ће тежити да има, у сваком стању, статистичку дистрибуцију која представља мешавину Гаусовских расподела вероватноће које имају дијагоналне коваријационе матрице и које ће дати вероватноћу за сваки посматран вектор. Свака реч, или (за општије системе препознавања говора) свака фонема, имаће различит производ дистрибуције; скривени Марковљев модел за низ речи или фонема је направљен спајањем индивидуално обучених скривених Марковљевих модела за одвојене речи и фонеме.
Горе речено је веома кратак увод неким значајним аспектима препознавања говора. Модерни системи препознавања говора користе велики број стандардних техника чије би одговарајуће објашњење захтевало много времена, али, само да назначимо, типични континуирани систем са великим вокабуларом би вероватно имао следеће делове. Била би му потребна зависност од контекста за фонове, односно гласове (тако да фонови са различитим левим и десним контекстом имају различите реализације); да бисмо решили питање невиђених контекста била би потребна три груписања контекста; користила би се наравно кепстрална нормализација за нормализовање у различитим условима снимања и зависећи од дужине времена које систем мора да прилагоди различитим говорницима и условима, могла би се користити средња кепстрална и дисперзна нормализација за разлике у каналима, нормализација дужине вокалног тракта за мушко-женску нормализацију и линеарна регресија максималне вероватноће за уопштенију адаптацију говорнику. Карактеристике би имале делта и делта-делта коефицијенте да би се забележила динамика говора, а додатно би се могла користити хетероседактична линеарна дискриминантна анализа, односно линеарна дискриминантна анализа скупа случајних променљивих које немају исту дисперзију, тј. варијансу; или би се могли прескочити делта и делта-делта коефицијенти и користити линеарна дискриминантна анализа праћена можда хетероседактичном линеарном дискриминантном анализом или глобалном коваријансном трансформацијом, која је такође позната и као максимална веродостојност линеарног трансформисања. Озбиљна компанија са великом количином података за обучавање би вероватно желела да узме у обзир дискриминативне технике тренирања као што је највећа узајамна информација, МPE, или МСЕ (за кратке исказе), и ако би била на располагању велика количина говорнику специфичних уписаних података, већа адаптација говорнику би била постигнута помоћу МАП, или, макар, помоћу линеарне регресије по методи максималне веродостојности засноване на дрвету. Декодирање говора (термин који се употребљава за оно што се дешава када је систему презентован нови исказ и када се мора израчунати највероватнији извор реченице) би вероватно користило Витерби алгоритам да би се нашла најбоља путања, али постоји избор између динамично стварајућих комбинација скривених Марковљевих модела која укључује и акустичке и језичке узорне информације, или их унапред статистички комбинује (АТ&Т приступ, за који њихов алат FSM може бити користан).
Препознавање говора засновано на неуронској мрежи
Још један приступ у акустичком моделовању је употреба неуронских мрежа. У стању су да реше много компликованије задатке препознавања, али нису добре колико скривени Марковљеви модели када су у питању вокабулари. Оваква препознавања говора се пре употребљавају када су у питању лош квалитет, бучни подаци или независност говорника, него што имају општу намену. Овакви системи могу постићи већу тачност него системи засновани на скривеном Марковљевом моделу, докле год постоје подаци за обуку и докле год је вокабулар ограничен. Још општији приступ коришћењем неуронских мрежа је препознавање фонема. Ово је активно поље истраживања, али резултати су генерално бољи него за скривене Марковљеве моделе. Такође постоје и хибридни системи засновани и на неуронској мрежи и на скривеном Марковљевом моделу, који користе један део за препознавање говора, а други за језичко моделовање.
Препознавање говора засновано на динамичној временској криви
Динамична временска крива је алгоритам за мерење сличности између два низа које могу варирати у времену и брзини. Нпр, сличности у шаблонима хода би требало да се детектују чак и ако је на једном снимку особа ходала споро, а на другом много брже, или чак ако би било убрзања и успорења за време опсервације. Динамична временска крива је била примењена на видео, аудио и графику. Заиста, сваки податак који може бити претворен у линеарну репрезентацију може бити анализиран помоћу динамичне временске криве.
Добро позната примена је аутоматско препознавање говора, где се излази на крај са различитим брзинама говора. Уопште, то је метод који дозвољава компјутеру да нађе оптимално подударање између два дата низа са одређеним ограничењима, односно низови су „искривљени“ нелинеарно да би одговарали један другом. Овај метод регулисања низова је често коришћен у контексту скривених Марковљевих модела.
Препознавање говора засновано на знању
Овај метод користи ускладиштене базе података команди које пореде просте речи са онима у бази података.
Патенти препознавања говора и расправа о патентима
Мicrosoft и Alcatel-Lucent су носиоци патената за препознавање говора и у спору су од 2. марта 2007. године.
АлфаНум
Сви успеси у препознавању и синтези говора су сконцентрисани на велике језике и богата тржишта јер се ради о мултидисциплинарним проблемима на чијем решавању у свету већ дужи низ година раде тимови од по више десетина људи. Међутим, развој оваквих алата и за српски језик отпочео је тим са Факултета техничких наука (ФТН) у Новом Саду предвођен др Владом Делићем у пројекту Алфанум[2].
Временом је овај тим прерастао и у посебно предузеће, АлфаНум д. о. о., које се бави развојем и пласманом говорних технологија. Резултати рада тима за сада су преточени у два заокружена система која се не заснивају ни на каквим претходним готовим решењима, већ су развијена од почетка. Продају се у виду софтверских компонената које се једноставно могу интегрисати у разне апликације, као и у оквиру готових решења пројектованих према захтевима купца.
AlfaNumASR је систем за препознавање континуалног говора, дакле, може да препозна и читаве реченице, а не само појединачне речи. Систем ради независно од говорника, дакле, не мора посебно да се обучава за препознавање сваког новог говорника што га чини идеалним за примене у, примера ради, говорним аутоматима за пружање информација корисницима. У речнику од 50 речи систем препознаје речи пренете преко телефонске линије са преко 98% тачности (преко 99% на снимку студијског квалитета), док је код речника са већим бројем речи тачност мања. Пошто систем врши фонетско препознавање, врло лако се може научити да препознаје и нове речи. Осмишљена је и посебна техника препознавања низа цифара са тачношћу већом од тачности препознавања сваке од њих појединачно, чиме се достиже тачност упоредива са људском. Притом, систем води рачуна и о изразима као што су нпр. „молим вас” или „хммм”, које корисници често изговарају, а који нису од значаја за ток апликације. На Пентиум 4 конфигурацији на 2GHz овај аутомат може истовремено да опслужује 50 линија, што га чини неупоредиво јефтинијим од људских оператера. AlfaNumASR већ користе „Телебанк” систем Поштанске штедионице, Републичка управа јавних прихода у Новом Саду, као и Генералштаб Војске Србије и Црне Горе.
AlfaNumTTS је систем задужен за синтезу говора. У односу на друге језике, синтезу говора на српском језику донекле олакшава то што се речи изговарају онако како се и пишу, али се, нажалост, на основу записа не може предвидети како се која реч акцентује, а без акцената би синтетизован говор био неприродан и непријатан за слушање. Додатно, већина речи у нашем језику је променљива, тако да је у оквиру пројекта АлфаНум морао бити развијен комплетан електронски акценатско-морфолошки речник српског језика у којем је све то евидентирано. Сама синтеза говора се врши повезивањем згодно одабраних сегмената из већ постојећег снимљеног материјала, применом разних техника чији је циљ да се прелази између сегмената учине што неприметнијим. Систем може да чита и ћириличне и латиничне текстове, исправно чита бројеве (не цифру по цифру, већ као речи), чак и редне. Поред тога, сналази се и са латиничним текстовима у којима нема наших слова, што је честа појава нпр. код е-маилова. Систем је развијен до те мере да чита потпуно течно, тако да је потпуно употребљив за слепе и слабовиде особе, али, наравно, није непогрешив. Примена у телефонији му је за сада ограничена на естетски мање захтевне потребе, као што су поменути говорни аутомати. Наравно, ASR се може, али и не мора, спрегнути са TTS-ом, тако да може радити и са претходно снимљеним и са синтетизованим и са обе врсте порука. Тренутно се ради на смањењу хардверске захтевности ових програма.
Додатна литература
Популарне конференције о препознавању говора одржавале су се сваке или сваке друге године укључујући и ICASSP, Eurospeech/ICSLP и IEEE ASRU. Конференције на пољу Обраде природног језика, као што су ACL, NAACL, EMNLP, и HLT почињу да укључују реферате о обради говора. Важни новинари укључују IEEE трансакције у говорну и аудио обраду, Компјутерски говор и језик, и Говорну комуникацију. Књиге као што је "Fundamentals of Speech Recognition" Лоренса Рабинера (Lawrence Rabiner) могу бити корисне да би се стекло основно знање, али можда нису у потпуности актуелне, односно у току (1993). Други добар извор може бити "Statistical Methods for Speech Recognition" Фредерика Јелинека (Frederick Jelinek) која је модернија књига (1998).
Када говоримо о слободно доступним изворима, HTK књига (и пратећи HTK алат) је једно место за почетак обе ствари, учења о препознавању говора и експериментисања. Такође можете потражити SPHINX алат Карнеги Мелон универзитета.