மொழித் தொகுப்பு அல்லது மொழிவழக்குத் தொகுப்பு (Corpus linguistics) என்பது ஒரு மொழியில் எழுத்து வழக்கிலும் பேச்சு வழக்கிலும் உள்ள சொற்றொடர்களையும் மொழிப் பயன்பாட்டையும் முறைப்படி தொகுத்து வைப்பதாகும். இது பல்வேறு இடங்களில் பல்வேறு மக்களால் பல்வேறு சூழல்களில் நிகழும் மொழி வழக்கைப் பதிவு செய்வதாகும். இவ்வகையான தொகுப்புகள் மொழியின் இயல்புகளையும், நடைமுறையில் நிகழும் இலக்கணம் முதலானவற்றையும் சொற்பொருளையும், சொற்களுக்கு இடையே நிகழும் அல்லது நிலவும் உறவுகளையும் ஆய்வு செய்யவும் அலசவும் மிகவும் பயனுடையதாக உள்ளன. மொழியியலில் இவ்வகையான மொழித் தொகுப்புகள் முக்கியமான ஒன்றாகக் கருதப்படுகின்றது. இதனை ஆங்கிலத்தில் கார்ப்பசு (corpus) என அழைக்கின்றனர்.
வரலாறு
ஆங்கில மொழிக்கான பிரௌன் தொகுப்பு என்னும் ஒரு மொழிவழக்குத் தொகுப்பை என்றி குச்சேராவும் நெல்சன் பிரான்சிசும் (Henry Kucera and Nelson Francis) ஆய்வு செய்து 1967 இல் ஓர் ஆய்வுக்கட்டுரை எழுதினார்கள். இதுவே மொழித்தொகுப்பு இயலின் துவக்கம். இந்த பிரௌன் தொகுப்பை அமெரிக்காவில் உள்ள ரோட்' ஐலண்டு என்னும் மாநிலத்தில் அமைந்துள்ள பிரௌன் பல்கலைக்கழத்தில் பணியாற்றிய என்றி குச்சேராவும் நெல்சன் பிரான்சிசும் உருவாக்கினார்கள். இவர்கள் 1961 இல் அமெரிக்காவில் அமெரிக்க ஆங்கிலத்தில் எழுதிய வெவ்வேறு படைப்புகள் 1000ஐத் தேர்ந்து அவற்றில் இருந்து ஒரு மில்லியன் சொற்கள் (1,014,312 சொற்கள்) அடங்கிய ஆங்கில மொழி வழக்குத் தொகுப்பு ஒன்றை உருவாக்கினார்கள். இவை 15 படைப்புவகையைச் (genres) சேர்ந்த படைப்புகளில் இருந்து பெற்றவை.
இதனைத் தொடர்ந்து பிறபல ஆங்கிலமொழித் தொகுப்புகள் வரத்தொடங்கின. பிரித்தானிய காலின்சு பதிப்பகத்தார் பிரித்தானிய, அமெரிக்க ஆத்திரேலிய வழக்குகளையும் உள்ளடக்கிய COBUILD அல்லது
பாங்க் ஆவ் இங்கிலீசு (Bank of English) என்னும் தொக்குப்பை உருவாக்கி அதனடிப்படையில் ஆங்கிலத்தை வெளிநாட்டு மொழியாகப் பயிவோருக்கு ஏற்ற அகராதி ஒன்ரையும் படைத்தார்கள். சர்வே ஆவ் இங்கிலீசு யூசேச் (Survey of English Usage, இங்கிலீசு வழக்கு தொகுநோக்கு) என்னும் மொழித்தொகுப்பின் அடிப்படையில் ஆங்கில மொழியின் இலக்கணத்தை குவிர்க்கும் (Quirk) மற்றவர்களும் 1985 இல் வெளியிட்டதும் ஒரு மைல் கல் [1].
பிரௌன் தொகுப்பைப் போலவே பிரித்தானிய ஆங்கிலத்துக்கு லங்க்காசுட்டர்-ஆசுலோஒ-பெர்கென் தொகுப்பு (Lancaster-Oslo-Bergen Corpus) எனப்படும் எல்-ஓ-பி தொகுப்பும் (LOB Corpus),
இந்திய ஆங்கிலத்துக்கு கோலாப்பூர் தொகுப்பும், நியூசிலாந்து ஆங்கிலத்துக்கு வெலிங்க்டன் தொகுப்பும், ஆத்திரேலிய ஆங்கிலத்துக்கு ஆத்திரேலியத் தொகுப்பும் என பல உருவாகின. பிரித்தானிய நாட்டகத்திய தொகுப்பு[2](British National Corpus) என்னும் தொகுப்பில் 100 மில்லியன் சொற்களுக்கும் கூடுதலாக இருப்பதுடன் பேச்சு வழக்கும் ஒலிப்பதிவாக உள்ளது. இதே போல அமெரிக்க ஆங்கிலத்துக்கு கோக்கா (COCA) என்று அழைக்கப்படும் தற்கால அமெரிக்க ஆங்கில மொழித்தொகுப்பு[3](Corpus of Contemporary American English) 400 மில்லியன் சொற்களுக்கு கூடுதலாக உள்ள ஒன்று. இப்பொழுது ஒரு பில்லியனுக்கும் கூடுதலான சொற்கள் அடங்கிய தொகுப்புகள் உள்ளன.
பிரான்சிய மொழிக்கு 1971 இல் துவக்கிய மான்ட்ட்ரியால் பிரான்சிய மொழித்திட்டம் (Montreal French Project)[4], என்னும் திட்டத்தின்கீழ் ஒரு மில்லியன் சொற்கள் அடங்கிய பிரான்சிய மொழித் தொகுப்பும், அதனைப் பின்தொடர்ந்து அதனினும் பெரிய கனடிய பிரான்சிய பேச்சுமொழித் தொகுப்பொன்றை சானா பாலாக் (Shana Poplack) உருவாக்கினார்.[5]
இதே போல எசுப்பானிய மொழிக்கும் (100 மில்லியன் எசுப்பானிய மொழிச் சொற்கள் கொண்டது [6], போர்த்துகீசிய மொழிக்கும் (45 மில்லியன் சொற்கள் கொண்டது)[7] இவ்வகையான மொழித்தொகுப்புகள் உள்ளன.
அடிக்குறிப்புகளும் மேற்கோள்களும்
- ↑ Quirk, R., Greenbaum, S., Leech, G. and Svartvik, J. A Comprehensive Grammar of the English Language London: Longman. 1985.
- ↑ பிரித்தானிய நாட்டகத்திய தொகுப்பு (British National Corpus)
- ↑ தற்கால அமெரிக்க ஆங்கில மொழித்தொகுப்பு (Corpus of Contemporary American English)
- ↑ Sankoff, D. & Sankoff, G. Sample survey methods and computer-assisted analysis in the study of grammatical variation. In Darnell R. (ed.) Canadian Languages in their Social Context Edmonton: Linguistic Research Incorporated. 1973. 7-64.
- ↑ Poplack, S. The care and handling of a mega-corpus. In Fasold, R. & Schiffrin D. (eds.) Language Change and Variation, Amsterdam: Benjamins. 1989. 411-451.
- ↑ 100 மில்லியன் எசுப்பானிய மொழிச்சொற்கள் கொண்ட மொழித்தொகுப்பு
- ↑ 45 மில்லியன் போர்த்துகீசிய மொழிச்சொற்கள் கொண்ட தொகுப்பு
வெளி இணைப்புகள்