در زبانشناسی پیکرهای، پیکرهٔ متنی یا پیکرهٔ واژگانی (بهاختصار: پیکره) (به انگلیسی: text corpus, corpus) به مجموعهای خام از دادههای زبانیِ نوشتاری یا گفتاری گفته میشود که میتوان در توصیف و تحلیل زبان از آن بهره گرفت، از جمله در ارزیابیها و تحلیلهای آماریِزبانشناختی و نیز در فرهنگنویسی، دستورنویسی، گویششناسی و جز آنها.[۱]
روشهای فراهم ساختن پیکره
در گذشته، فراهم ساختن پیکرههای زبانی برای تألیف فرهنگ بسیار وقتگیر، پرزحمت و پرهزینه بود؛ مثلاً علیاکبر دهخدا و همکارانش برای تألیف لغتنامه سالیان درازی متون منظوم و منثور زبان فارسی را سطربهسطر خواندند و برگههای انبوهی حاوی واژهها، شواهد و ارجاعات آنها فراهم آوردند. مجموعهٔ دادههای زبانیای که دهخدا و یارانش به روش سنتیِ برگهنویسی فراهم آوردند، بهلحاظ حجم، بهویژه در مورد متون کهن زبان فارسی، در آن زمان و حتی تا زمانهٔ ما، بینظیر بوده و هست.
امروزه، پیشرفتهای شگرف بشر در زمینهٔ فناوری اطلاعات، بهویژه رایانه، استفاده از این ابزار را برای گردآوری دادههای زبانی و تألیف فرهنگهای مختلف براساس این دادهها ناگزیر میسازد؛ چنانکه در کشورهای پیشرفته، روش سنتی گردآوری دادهها بهکلی متروک شده و فرهنگهای گوناگونی، ازجمله کوبیلد(COBUILD)، فرهنگ بیستجلدی آکسفورد و جز آنها براساس پیکرههای زبانیِ رایانهای تألیف یا تکمیل میگردند.[۲]
ناب، پیکره متنی برای زبان فارسی
در سالهای اخیر، پردازش زبان طبیعی به عنوان یکی از مهمترین حوزههای یادگیری ماشین و یادگیری عمیق مورد توجه قرار گرفته است. مدلهای پایه در این حوزه همان مدل های زبانی هستند که به حجم زیادی از داده متنی نیاز دارند. عملیات آموزش این مدل های زبانی به صورتی است که در آن کلمه یا کلماتی از متن حذف میشود و از مدل خواسته میشود که با توجه به واژگان خود جای خالی را حدس بزند بدین ترتیب مدل زبانی جایگاه مناسب معنایی کلمات موجود در واژگان زبان را میشناسد.
معمولا این آموزش به مقدار بسیار زیادی داده متنی تمیز شده نیاز دارد. این موضوع در زبان هایی که منابع متنی آزاد کمتری برای آن وجود دارد بسیار بیشتر احساس میشود. کمبود این منابع متنی باعث میشود که محققان این حوزه نتوانند مدل های زبانی روز دنیا را برای فارسی آموزش دهند.
برای حل این مشکل، تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه شریف به سرپرستی دکتر حسین صامتی پیکره متنی ناب را معرفی کردهاند.
این پیکره شامل حدود 130 گیگابایت متن تمیز شده کاملا فارسی که متشکل از 250 میلیون پاراگراف و 15 میلیارد کلمه است. این پیکره متنی به صورت کاملا متن باز در اختیار همگان قرار داده شده است و محققان حوزه پردازش طبیعی میتوانند به راحتی از آن بهره بجویند. از ویژگیهای پیکره ناب قرار گرفتن آن بر روی مخزن دیتاست Huggingface است، بهاین ترتیب میتوانید تمام یا بخشی از پیکره ناب را به کمک کتابخانه dataset دانلود کرده و برای آموزش مدل خود استفاده کنید.
علاوه بر این نسخه خام پیکره ناب به همراه ابزار پاکسازی متن در اختیار عموم قرار گرفته است تا به کمک آن بتوانید پیکره متنی تمیز شده خود را بسازید. همچنین در صورتی که پیکره متنی دارید که میخواهید به اشتراک بگذارید میتوانید به سادگی آن را به پیکره خام ناب اضافه کنید بدین ترتیب کاربران میتوانند علاوه بر استفاده از پیکره متنی شما به صورت جداگانه از آن در کنار بقیه پیکره های متنی فارسی نیز استفاده کنید. برای اطلاعات بیشتر راجع به پیکره متنی ناب به مقاله ناب به زبان انگلیسی مراجعه کنید.