لاما (به انگلیسی: LLaMA) مخفف شده عبارت مدل زبانی بزرگ متا ایآی (به انگلیسی: Large Language Model Meta AI) یک مدل زبانی بزرگ است که توسط متا ایآی در فوریه ۲۰۲۳ منتشر شد. این هوش مصنوعی توسط شرکت متا توسعه داده شده است . این مدل به انواع اندازههای مختف ۷، ۱۳، ۳۳، و ۶۵ میلیارد پارامتر آموزش داده شده است. توسعه دهندگان لاما مدعی هستند که عملکرد مدل ۱۳ میلیارد پارامتری در اکثر معیارهای پردازش زبان طبیعی از عملکرد جیپیتی ۳ فراتر رفته و با مدلهای پیشرفته مانند پالم و چینچیلا قابل رقابت است. قدرتمندترین مدلهای زبانی بزرگ عموماً فقط از طریق APIهای محدود قابل دسترسی بودند ولی متا مدل لاما را تحت یک مجوز غیرتجاری برای جامعه تحقیقاتی منتشر کرد. یک هفته پس از انتشار، لاما از طریق بیتتورنت در انجمن 4chan برای عموم مردم فاش شد.
در ژوئیه ۲۰۲۳، متا چندین مدل Llama 2 با پارامترهای ۷، ۱۳ و ۷۰ میلیاردی را منتشر کرد.
لاما-۳
در ۱۹ آوریل ۲۰۲۴، لاما-۳ را در دو اندازه: ۸ و ۷۰ میلیارد پارامتری منتشر کرد. این مدلها بر روی تقریباً ۱۵ تریلیون نشانه متن جمعآوریشده از «منابع عمومی» آموزش دیدهاند. در مورد مدلهای دستورالعملی، آموزشهای نسخههای دستورالعملی نیز بر روی «مجموعههای دستورالعمل در دسترس عموم" و همچنین "بیش از ۱۰ میلیون نمونه برچسبزدهشده توسط انسان» انجام شدهاند. هر دو مدل منبع باز فقط میتوانند متن را بپذیرند و تولید کنند.[۲] متا اعلام کرده که برنامههایی برای انتشار مدلهای چندوجهی، با قابلیت مکالمه به زبانهای مختلف و همچنین با پنجره زمینه بزرگتر دارد. یک مدل جدید 400B+ نیز در حال حاضر در حال آموزش است.[۳]
لاما-۲
در ۱۸ ژوئیه ۲۰۲۳، متا با همکاری مایکروسافت، نسل بعدی محصولات لاما، با نام لاما-۲ را معرفی کرد. متا لاما-۲ را در سه اندازه مدل: ۷، ۱۳ و ۷۰ میلیارد پارامتری آموزش داده و منتشر کرد.[۴] معماری مدل تا حد زیادی نسبت به مدلهای لاما-۱ بدون تغییر باقی میماند، اما ۴۰ درصد دادههای بیشتری برای آموزش مدلهای پایه استفاده شد.[۵] پیش مقاله پیش از انتشار[۵][پاورقی ۱] مدعی شده که ممکن است در آینده پس از برآورده کردن اهداف ایمنی در محصول، مدلی با پارامترهای 34B را منتشر کنند.
لاما-۲ شامل دو مدل پایه و مدل محاورهای است بهخوبی تنظیم شده و Llama-2 Chat نام دارد. به منظور ایحاد تفاوت با مدلهای لاما-۱، همه مدلهای جدید با وزنهای مربوطه عرضه میشوند (وزنباز هستند) و برای بسیاری از کاربردهای تجاری رایگان هستند، یعنی نیاز دریافت به مجوز یا خرید ندارند. با این حال، به دلیل برخی محدودیتهای باقیمانده، توصیف لاما به عنوان منبع باز توسط پیشگامان متنباز (معروف به حفاظت از تعریف منبع باز هستند) مورد مناقشه قرار گرفته است.[۶]{{
معماری و آموزش
معماری
لاما از معماری استانداردمدلسازی زبان که از سال ۲۰۱۸ عمومیت یافت، همان ترنسفورمر، استفاده میکند.
در مقایسه با جیپیتی ۳، لاما تفاوتهای جزئی زیر را در معماری خود دارد:
طول زمینه را از 2K نشانه (در لاما ۱) به 4K نشانه (در لاما ۲) افزایش داده است.
مجموعه دادههای آموزشی
توسعهدهندگان لاما تلاش خود را به جای افزایش تعداد پارامترها، بر مقیاسسازی عملکرد مدل با استفاده از افزایش حجم دادههای آموزشی متمرکز کردند. به این دلیل که هزینه غالب برای الالامها ناشی از استنتاج بر روی مدل آموزشدیده شده است، تا هزینه محاسباتی فرایند آموزش.
مدلهای پایه لاما ۱ بر روی یک مجموعه داده با ۱٫۴ تریلیون نشانه، و از منابع دادهای در دسترس عموم آموزش دیدند، از جمله:
مدلهای پایه لاما ۲ بر روی یک مجموعه داده با ۲ تریلیون نشانه آموزش داده شدند. این مجموعه داده به دقت انتخاب دشه بود تاوبسایتهایی که اغلب اطلاعات شخصی افراد را افشا میکنند حذف کند. مدل همچنین از منابع قابل اعتماد استفاده میکند.[۱۱] علاوه بر این، مدل Llama 2 - Chat بر روی ۲۷۵۴۰ جفت پرسخ و پاسخ ایجاد شده برای این پروژه تنظیم شد که کیفیتی بالاتر از مجموعه دادههای شخص ثالث بزرگتر (اما با کیفیت پایینتر) داشت. برای همترازی با هوش مصنوعی، یادگیری تقویتی با بازخورد انسانی[پاورقی ۲] با ترکیبی از ۱۴۱۸۰۹۱ نمونه از شرکت متا و هفت مجموعه داده کوچکتر استفاده شد. میانگین عمق گفتگو در نمونههای متا ۳٫۹، برای مجموعههای Anthropic Helpful و Anthropic Harmless برابر با ۳٫۰ و برای پنج مجموعه دیگر، از جمله OpenAI Summarize, StackExchange و غیره، ۱٫۰ بود.
تنظیمدقیق
از انواع مدلهای لاما ۱، تنها مدلهای پایه با یادگیری خود نظارتشده و بدون تنظیمدقیق در دسترس هستند. برای لاما ۲، مدلهای گفتگومحور از مدلهای پایهای لاما ۲ مشتق شدهاند. بر خلاف جیپیتی ۴ که طول زمینه را در هنگام تنظیمدقیق افزایش داد، لاما ۲ و Llama 2 - Chat دارای طول زمینه یکسان معادل 4K نشانه هستند. در مرحله تنظیمدقیق نظارتشده، از یک تابع هزینه خودهمبسته استفاده میشود. بدین معنی که نشانههای درخواستهای کاربر در تابع هزینه بیاثر شدهاند. به عبارت دیگر، مدل برای یادگیری (بهروز رسانی پارمترهایش) از پاسخهای خودش استفاده میکند نه از پاسخهای کاربر. اندازه دسته ۶۴ بود.
برای تراز هوش مصنوعی، نظرنویسان انسانی[پاورقی ۳] پرسشهایی را آماده و به مدل خوراندند. سپس دو خروجی مختلف مدل را با هم مقایسه کرده و با توجه به سطح اطمینان و سطح ایمنی، برچسبهای جداگانه به خروجیها منتسب میکنند که باعث کنار گذاشته شدن یک خروجی میشود و خروجی را به نوعی وتو میکنند. اصطلاحاً یک پروتکل باینری اجرا میشود. برای دو اولویت ایمنی و مفید بودن پاسخها، دو مدل پاداش جداگانه آموزش داده میشود. یک پیشرفت بزرگ در این مرحله استفاده از یک تکنیک جدید مبتنی بر نمونهبرداری بازپسزننده پیش از اعمال بهینهسازی سیاست پروگزیمال[پاورقی ۴] در پیادهسازی یادگیری تقویتی با بازخورد انسانی است. در روشهای قدیمیتر در پیادهسازی RLHF بهطور گسترده و اختصاصی از بهینهسازی سیاست پروگزیمال بهره میبردند.
برای اطمینان از این که «پیامهای سیستم»[پاورقی ۵] در طول گفتگو رعایت شود، هدفگذاری و تمرکز در گفتگوها بر روی بهبود عملکرد با استفاده از تطابق چندمرحلهای انجام شد. این کار با استفاده از تکنیک جدید "توجه پنهانی" (یا "توجه روح")[پاورقی ۶] در طول آموزش انجام پذیرفت، ولی با این وجود، اثرگذاری نشانههای مربوط به دستورالمعلهای ضمیمه شده در تابع هزینه صفر میشوند.
انتشار مدل و نشت اطلاعات
اطلاعرسانی عمومی لاما در ۲۴ فوریه ۲۰۲۳ از طریق یک پست وبلاگ به همراه مقالهای که آموزش مدل، اعتبارسنجی و مجموعههای آزمایشی را توصیف میکرد، انجام شد. کد استنتاج مورد استفاده برای اجرای مدل به صورت عمومی تحت مجوز منبع باز جیپیال۳ منتشر شد. دسترسی به وزنهای مدل توسط یک فرایند درخواست مدیریت میشد، و دسترسی «به صورت موردی به پژوهشگران دانشگاهی؛ آنهایی که به سازمانهای دولتی، جامعه مدنی، و دانشگاهها وابسته بودند؛ و آزمایشگاههای تحقیقاتی صنعت در سراسر جهان اعطا میشد. ".
در ۳ مارس ۲۰۲۳، تورنتی حاوی وزنهای لاما بارگذاری شد، و پیوند به تورنت آن صفحه تصاویر سایت ۴چن به اشتراک گذاشته شد. متعاقباً در جوامع برخط هوش مصنوعی نیز منتشر شد. در همان روز، یک درخواست کشش در مخزن اصلی لاما باز شد و درخواست افزودن [[طرح یوارآی آهنربایی|پیوند آهنربایی]] به اسناد رسمی را داده بود.[۱۲][۱۳] در ۴ مارس، یک درخواست کشش برای افزودن پیوندهای به مخازن هاگینگ فیس، که حاوی مدل لاما بودند، باز شد.[۱۴][۱۲] در ۶ مارس، متا درخواست حذف را برای حذف مخازن هاگینگ فیس مرتبط با درخواست کشش ارائه کرد و آن را «توزیع غیرمجاز» مدل توصیف کرد. هاگینگ فیس با درخواستهای شرکت متا موافقت کرد.[۱۵] در ۲۰ مارس، متا به بهانه نقض حق نسخهبرداری یک درخواست حذف قانون کپیرایت هزاره دیجیتال را علیه یک مخزن حاوی اسکریپت که لاما را از یک سای آینهای بارگذاری میکرد، ارائه کرد و گیتهاب نیز روز بعد موافقت کرد.[۱۶] از ۲۵ مارس، فیس بوک به درخواست کشش حاوی پیوند آهنربایی پاسخ نداده است.[۱۳]
واکنشها به این نشت متفاوت بود. برخیگمانه زنی کردند که این مدل برای مقاصد مخرب مانند هرزنامه پیچیدهتر استفاده میشود. برخی نیز با اشاره به در دسترس بودن مدل و همچنین این واقعیت که نسخههای کوچکتر آن را نسبتاً ارزان میتوان اجرا کرد تمجید کردهاند؛ که نشان میدهد که این امر باعث شکوفایی پیشرفتهای تحقیقاتی بیشتر میشود. مفسران متعددی مانند سایمون ویلیسون، لاما را با استیبل دیفیوژن (یک مدل متن به تصویر) مقایسه کردند که بر خلاف مدلهای نسبتاً پیچیده قبل از خود، آشکارا توزیع شد و منجر به گسترش سریع ابزارها، تکنیکها و نرمافزارهای مرتبط شد.
بازتولید مجموعه داده
در ۱۷ آوریل ۲۰۲۳، شرکت TogetherAI پروژه ای به نام RedPajama را برای بازتولید و توزیع نسخه منبع باز مجموعه دادههای لاما راهاندازی کرد. این مجموعه داده تقریباً ۱٫۲ تریلیون نشانه دارد و به صورت عمومی برای باگذاری توسط عموم در دسترس است.
کاربردها
گئورگی گرگانف[پاورقی ۷] که توسعهدهنده نرمافزار بود، llama.cpp را منتشر کرد. این برنامه که یک نرمافزار بهینهسازی شده برای پیادهسازی مجدد LLaMa در C++ است. این کار به بسیاری از افراد اجازه داد تا سری مدلهای لاما را به صورت محلی (بدون نیاز به دسترسی به خدمات ابری یا واسط برنامهنویسی کاربردی) اجرا کنند.[۱۷]
بخش هوش مصنوعی انسانمحور[پاورقی ۸]دانشگاه استنفورد که مرکز تحقیقات مدلهای بنیادی[پاورقی ۹] است، مدل Alpaca را منتشر کرد. در واقع این مدل یک دستورالعمل آموزشی مبتنی بر مدل LLaMA 7B است که به منظور تنظیم دقیق برای کاربرد دستورالعملی از روش"Self-Instruct" که بتواند رقیب قابل قبولی برای سری text-davinci-003 از مدلهای جیپیتی ۳ شرکت اوپنایآی باشد، ولی با هزینه اندک.[۱۸][۱۹] چندین پروژه منبعباز وجود دارند که این راه را ادامه میدهند و با استفاده از مجموعه داده Alpaca به تنظیم دقیق لاما میپردازند.
↑System messages. دستورالعملهای اولیه، مانند "به فرانسوی صحبت کن" و "مانند ناپلئون بیان کن"
↑Ghost attention. در این روش، به هر پیام جدیدی که کاربر به مدل میدهد، بهطور عمدی دستورالعملهای مرتبط نیز الصاق میشود. این کار باعث میشود که دستورالعمل ابتدایی به مدل یادآوری شود. با این روش، پیوستگی دستورالعملها در دریافت مدل از کاربر تضمین میشود
↑Taori, Rohan; Gulrajani, Ishaan; Zhang, Tianyi; Dubois, Yann; Li, Xuechen; Guestrin, Carlos; Liang, Percy; Hashimoto, Tatsunori B. (13 March 2023). "Alpaca: A Strong, Replicable Instruction-Following Model". Stanford Center for Research on Foundation Models.