Nitqin tanınması — diktorun verdiyi komandaları və verilənləri qəbul etmək məqsədilə kompüterin tələffüz olunan sözləri başa düşmək bacarığı.[1] Şifahi dilin kompüterlər tərəfindən tanınmasına və mətnə çevrilməsinə imkan verən, metodologiya və texnologiyaları inkişaf etdirən informatika və hesablama dilçiliyinin fənlərarası alt sahəsidir. O, həmçinin avtomatik nitqin tanınması (ASR), kompüterin nitqi tanınması və ya nitqdən mətnə (STT) kimi tanınır. Eyni zamanda kompüter elmləri, dilçilik və kompüter mühəndisliyi sahələrində bilik və tədqiqatları özündə birləşdirir. Əks proses nitqin sintezi adlanır.
Bəzi nitq tanıma sistemləri fərdi spikerin mətni və ya lüğəti sistemə oxuduğu "təlim" tələb edir. Sistem şəxsin spesifik səsini təhlil edir və alınan nəticədən həmin şəxsin nitqinin tanınmasını dəqiqləşdirmək üçün istifadə edir. Təlimdən istifadə etməyən sistemlər "müstəqil" sistemlər adlanır.[2]
Nitqin tanınması proqramlarına səsli zəng, zənglərin yönləndirilməsi, avtomatik ev cihazların idarə edilməsi, açar sözlərin axtarışı, sadə məlumatların daxil edilməsi, strukturlaşdırılmış sənədlərin hazırlanması, spiker xüsusiyyətlərinin müəyyən edilməsi[3] və nitqdən mətnə emal kimi səs istifadəçi interfeysləri daxildir.
Səsin tanınması[4][5][6] və ya danışanın identifikasiyası[7][8][9] termini danışanın dediklərini deyil, onun özünü müəyyən etməyə aiddir. Spikerin tanınması konkret şəxsin səsi ilə öyrədilmiş sistemlərdə nitqin tərcüməsi tapşırığını sadələşdirə bilər və ya təhlükəsizlik prosesinin bir hissəsi kimi spikerin kimliyini təsdiqləmək və ya yoxlamaq üçün istifadə edilə bilər.
Texnologiya nöqteyi-nəzərindən nitqin tanınması bir neçə əsas yenilik dalğası ilə uzun bir tarixə malikdir. Bu yaxınlarda bu sahə dərin öyrənmə və böyük verilənlərdə baş verən irəliləyişlərdən faydalanmışdır. İrəliləyişlər təkcə bu sahədə dərc olunan akademik məqalələrin artması ilə deyil, daha da əhəmiyyətlisi dünya sənayesində nitqin tanınması sistemlərinin layihələndirilməsi və tətbiqində müxtəlif dərin öyrənmə üsullarının qəbulu ilə sübut olunur.
İnkişafın əsas sahələri bunlar idi: lüğətin ölçüsü, danışanın müstəqilliyi və emal sürəti.
1970-ci ildən əvvəl
1952 — üç Bell Labs tədqiqatçısı, Stiven Balaşek,[10] R. Biddulf və K. H. Davis, tək spikerlərin rəqəmlərinin tanınması üçün "Audrey"[11] adlı bir sistem qurdular. Onların sistemi formantları hər bir nitqin güc spektrində yerləşdirirdi.[12]
1969 — Con Pirs nitqin tanınması tədqiqatını tənqid edən açıq məktub yazdıqda Bell Labs-da maliyyə bir neçə il boyunca tükənmiş vəziyyətdə qaldı.[15] Bu vəziyyət Pirs təqaüdə çıxana və Ceyms Flanaqan vəzifəyə gələnə qədər davam etdi.
Rac Reddi 1960-cı illərin sonlarında Stenford Universitetində aspirant kimi davamlı nitqin tanınmasını üzərinə götürən ilk şəxs idi. Əvvəlki sistemlər istifadəçilərdən hər sözdən sonra fasilə verməyi tələb edirdi. Reddinin sistemi şahmat oynamaq üçün şifahi əmrlər verirdi.[16]
Təxminən bu vaxtlarda sovet tədqiqatçıları dinamik vaxt dəyişikliyi (DVD) alqoritmini icad etdilər və ondan 200 sözdən ibarət lüğət üzərində işləyə bilən tanıma sistem yaratmaq üçün istifadə etdilər.[17] DVD nitqi qısa kadrlara, 10 ms seqmentlərə bölərək və hər bir çərçivəni vahid şəkildə emal edərək işləyirdi. DVD sonrakı alqoritmlərlə əvəz edilsə də, texnika davam edirdi. Bu dövrdə spikerin müstəqilliyinin təmin edilməsi həll olunmamış qaldı.
↑P. Nguyen. Automatic classification of speaker characteristics // International Conference on Communications and Electronics 2010. 2010. 147–152. doi:10.1109/ICCE.2010.5670700. ISBN978-1-4244-7055-6.
↑Sarangi, Susanta; Sahidullah, Md; Saha, Goutam. "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104. September 2020: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795.
↑"Speaker Identification (WhisperID)". Microsoft Research. Microsoft. 25 fevral 2014 tarixində arxivləşdirilib. İstifadə tarixi: 21 fevral 2014. When you speak to someone, they don't just recognize what you say: they recognize who you are. WhisperID will let computers do that, too, figuring out who you are by the way you sound.
Cole, Ronald; Mariani, Joseph; Uszkoreit, Hans; Varile, Giovanni Battista; Zaenen, Annie; Zampolli; Zue, Victor, redaktorlar Survey of the state of the art in human language technology. Cambridge Studies in Natural Language Processing. XII–XIII. Cambridge University Press. 1997. ISBN978-0-521-59277-2.
Junqua, J.-C.; Haton, J.-P. Robustness in Automatic Speech Recognition: Fundamentals and Applications. Kluwer Academic Publishers. 1995. ISBN978-0-7923-9646-8.