Aŭtomata lingvorekono estas tasko de lingvokomputiko.
Lingvorekona programo prognozas la lingvon de esplorata teksto.
Aplikoj
Lingvoidentigo utilas por ekzemple:
- provizi servon en la oportuna lingvo al uzanto
- klasigi tekstojn laŭ lingvoj
- sciigi pri la lingvo de teksto alian lingvoanalizan programon
(literumilon, tradukprogramon), por ke ĝi ŝaltu la ĝustajn
gramatikojn, vortarojn...
- trovi fremdlingvajn partojn ene de teksto
- ...
Procedoj
Du precipaj procedoj estas uzataj por lingvorekono: la procedo per karakterizaj vortoj, kaj la procedo per litertrioj.
La procedo per karakterizaj vortoj konservas listojn de tipaj, oftaj vortoj de ĉiu koncerna lingvo. Analizante tekston, la programo komparas la liston de ĝiaj oftaj vortoj kun la vortlistoj karakterizaj de la diversaj konataj lingvoj.
La procedo per litergrupoj el ekzemplaj tekstoj kalkulas la
oftecon de litergrupoj en ĉiu lingvo. (Ordinare oni uzas grupojn de
unu ĝis kvin literoj, kelkfoje nur litertriojn, kiuj estas sufiĉe
karakterizaj kaj ne tro multenombraj.) Eventuale, oni povas distingi vortkomencajn, vortmezajn kaj vortfinajn litergrupojn, ĉar ili ne same ofte aperas en lingvo. Ankaŭ relative krudaj listoj de litergrupoj, eĉ enhavantaj spacojn kaj interpunkciojn, efike priskribas la aspekton de aparta lingvo. Analizante tekston, programo uzanta ĉi procedon komparas la liston de ĝiaj oftaj litergrupoj kun literlistoj karakterizaj de la diversaj konataj lingvoj.
Efiko
Aŭtomata lingvorekono estas inter la plej facile sukcesaj aplikoj de
lingvokomputiko. La ĉefa limigo estas, ke la programo facile eraras
pri nekonataj lingvoj: ĝi diagnozos la plej similan lingvon inter la
konataj, sed ĝi ne havas memevidentan bazon por respondi mi ne scias, kiu lingvo tio estas.
La procedo per karakterizaj vortoj estas la sola disponebla, se oni
esploras tekstojn tra vortindeksoj, ekzemple tra ordinara interreta
serĉilo. La procedo per litergrupoj preferindas en aliaj
cirkonstancoj, ĉar ĝi kapablas rekoni la lingvon de pli mallongaj
tekstoj, kaj ĉar ĝi povas jam "lerni" la aspekton de lingvo el
relative malgrandaj samploj (50 kbo da teksto sufiĉas por bona
rezulto, trans 2,5 Mbo da lerna
samplo ĝi apenaŭ ankoraŭ trovos novajn litergrupojn).
Eksteraj ligiloj