In de computationele taalkunde verwijst een n-gram naar een opeenvolging van n items uit een gegeven steekproef tekst of spraak. Deze items kunnen letters, woorden of symbolen zijn. N-grammen worden veel gebruikt in natuurlijke taalverwerking en machinaal leren-toepassingen, waar ze dienen als basis voor modellen die taalkundige context proberen te begrijpen en voorspellen.
Soorten n-grammen
De meest voorkomende vormen van n-grammen zijn:
- Unigram
- Dit zijn enkele items, zoals enkele woorden in een tekst.
- Bigram
- Dit bestaat uit opeenvolgende paren van twee items, zoals opeenvolgende woorden in een zin.
- Trigram
- Hierbij gaat het om opeenvolgende sets van drie items, zoals drie opeenvolgende woorden in een tekst.[1]
Toepassingen
n-grammen zijn van groot belang in verschillende toepassingen:
- Machinevertaling
- Ze worden gebruikt om de waarschijnlijkheid van bepaalde zinsconstructies in een doeltaal te modelleren.
- Tekstvoorspelling
- Veel tekstverwerkingsprogramma's maken gebruik van n-grammen om woordsuggesties te doen terwijl een gebruiker typt.
- Spraakherkenning
- Bij het omzetten van gesproken taal naar tekst, helpen n-grammen om het meest waarschijnlijke woord of de meest waarschijnlijke zinsconstructie te bepalen.
- Informatieherstel
- In zoekmachines helpen n-grammen bij het bepalen van de relevantie van documenten op basis van de zoekopdracht.[2]
Uitdagingen en overwegingen
Hoewel n-grammen krachtige instrumenten zijn, hebben ze ook beperkingen. Zo houden ze geen rekening met de betekenis van woorden en hebben moeite met het begrijpen van complexe taalconstructies.
In de wereld van taalverwerking blijven n-grammen echter een essentieel concept en een waardevol hulpmiddel voor het begrijpen van taalkundige context en voorspellingen.
Bronnen