ترنسفورمر تولیدگر از پیش آموزشدیده ۳ (به انگلیسی: Generative Pre-trained Transformer) (اختصاری GPT-3) یک مدل زبانیخودگرا است که از یادگیری عمیق برای تولید متنی شبیه انسان استفاده میکند.
این سومین مدل پیشبینی زبان در سری GPT-n (و جانشین GPT-2) است که توسط اوپن ایآی ایجاد شدهاست.[۱] نسخه کامل GPT-3 دارای ظرفیت ۱۷۵ میلیارد پارامتر یادگیری ماشین است. GPT-3، که در ماه مه ۲۰۲۰ معرفی شد و از ژوئیه ۲۰۲۰ در مرحله آزمایشی قرار دارد،[۲] بخشی از روند سیستمهای پردازش زبان طبیعی (NLP) در ارائه زبان از پیش آموزش دیدهاست.
کیفیت متن تولید شده توسط GPT-3 به حدی بالا است که تعیین اینکه آیا توسط انسان نوشته شدهاست یا خیر، اندکی دشوار است، که دارای مزایا و خطرات است. سی و یک محقق و مهندس اوپن ایآی مقاله اصلی خود را در ۲۸ می ۲۰۲۰ معرفی کرد که GPT-3 را معرفی میکرد. آنها در مقاله خود در مورد خطرات احتمالی GPT-3 هشدار دادند و خواستار تحقیق برای کاهش خطر شدند. : 34 دیوید چالمرز، فیلسوف استرالیایی، GPT-3 را «یکی از جالبترین و مهمترین سیستمهای هوش مصنوعی تولید شده تا به حال» توصیف کرد.[۳]
مایکروسافت در ۲۲ سپتامبر ۲۰۲۰ اعلام کرد که مجوز استفاده «انحصاری» از GPT-3 را دریافت کردهاست. دیگران هنوز میتوانند از واسط برنامهنویسی کاربردی عمومی برای دریافت خروجی استفاده کنند، اما فقط مایکروسافت به مدل اصلی GPT-3 دسترسی دارد.
پیشزمینه
به گفته اکونومیست، بهبود الگوریتمها، رایانههای قدرتمند و افزایش دادههای دیجیتالی باعث انقلاب در یادگیری ماشین شدهاست، با تکنیکهای جدید در دهه ۲۰۱۰ منجر به «پیشرفت سریع در وظایف» از جمله دستکاری زبان شد.[۴] مدلهای نرمافزاری برای یادگیری با استفاده از هزاران یا میلیونها مثال در یک ساختار بر اساس معماری عصبی مغز آموزش داده میشوند".[۴] یکی از معماریهای مورد استفاده در پردازش زبان طبیعی (NLP) یک شبکه عصبی مبتنی بر یک است که برای اولین بار در سال ۲۰۱۷ با نام ترنسفورمر(Transformer) معرفی شد. مدلهای GPT-n بر اساس این معماری شبکه عصبی مبتنی بر یادگیری عمیق است. تعدادی سیستم NLP وجود دارد که قادر به پردازش، استخراج، سازماندهی، اتصال، یافتن تضاد، درک و تولید پاسخ به سوالات هستند.[۵]
در ۱۱ ژوئن سال ۲۰۱۸، محققان و مهندسان اوپن ای آی مقاله اصلی خود را پیرامون مدلهای مولد - مدلهای زبانی - سیستمهای هوش مصنوعی منتشر کرد که در رابطه با این بود که میتوان سیستمها را از قبل با مجموعه عظیمی از دادههای یک دیتابیس (یادگیری ماشین)، در یک فرایند که آن را به نام پیش مولد آموزش (GP) میشناسیم آموزش داد.[۶] نویسندگان توضیح دادند که چگونه عملکردهای درک زبان در پردازش زبان طبیعی (NLP) در GPT-n از طریق فرایند «آموزش پیش فرض یک مدل زبان بر روی مجموعه متن متن بدون برچسب، و به دنبال آن تنظیم دقیق متمایز کننده در هر مورد خاص» بهبود یافتهاست. این امر نیازی به نظارت انسانی و برچسب زنی دستی که زمان زیادی نیاز دارد ندارد.[۶]
در فوریه ۲۰۲۰، مایکروسافت نسل طبیعی زبان تورینگ (T-NLG) خود را معرفی کر، که ادعا میشود «بزرگترین مدل زبانی تا کنون است که با ۱۷ میلیارد پارامتر منتشر شدهاست».[۷] با وجود کوچکتر بودن از مدل زبانی آیبیام تانگورا که بیش از ۸ تریلیون پارامتر داشت، در انواع مختلفی از کارها که شامل جمعبندی متون و پاسخ به سوالات بود، بهتر از هر مدل زبانی دیگر عمل کرد.[۷]
تواناییها
در ۲۸ مه ۲۰۲۰، پیش چاپ آرکایو توسط گروهی از ۳۱ مهندس و محقق در اوپن ای آی توسعه GPT-3، نسل سوم «مدل زبان پیشرفته» را مطرح کرد.[۸] این تیم ظرفیت GPT-3 را بیش از دو مرتبه بیشتر از مدل قبلی خود، GPT-2، افزایش داد[۹] و GPT-3 را به عنوان بزرگترین مدل زبانی غیر پراکنده تا به امروز تبدیل کرد. : 14 [۱] از آنجایی که GPT-3 از نظر ساختاری شبیه به مدلهای قبلی خود است،[۸] سطح بالاتر دقت در آن به افزایش ظرفیت و تعداد بیشتر پارامترها نسبت داده میشود.[۱۰] ظرفیت GPT-3 ده برابر ظرفیت Turing NLGمایکروسافت، بزرگترین مدل NLP بعدی است.[۱۱]
شصت درصد از مجموعه دادههای پیش آموزشی GPT-3 از نسخه فیلتر شده Common Crawl متشکل از ۴۱۰ میلیارد توکن رمزگذاری شده با جفت بایت میباشد : 9 منابع دیگر عبارتند از ۱۹ میلیارد توکن از WebText2 که ۲۲٪ کل حجم را نشان میدهد، ۱۲ میلیارد توکن از Books1 که ۸٪ را نشان میدهد، ۵۵ میلیارد توکن از Books2 که ۸٪ را نشان میدهد و ۳ میلیارد توکن از ویکیپدیا که ۳٪ را نشان میدهد.[۸]: 9 GPT-3 بر روی صدها میلیارد کلمه آموزش دیدهاست و قادر به کدگذاری در CSS ,JSX ،Python و سایر موارد است.[۲] از آنجا که دادههای آموزشی GPT-3 همهجانبه بوده، نیازی به آموزش بیشتر برای کارهای زبانی متمایز ندارد.[۲] دادههای آموزشی شامل (occasional toxic language) است و GPT-3 گاهی اوقات در نتیجه تقلید از دادههای آموزشی خود، زبان (occasional toxic) تولید میکند. مطالعه ای از دانشگاه واشینگتن نشان داد که GPT-3 دارای زبانی (occasional toxic) در سطح سمیت قابل مقایسه با مدلهای مشابه پردازش زبان طبیعی GPT-2 و CTRL است. GPT-3 در مقایسه با مدل قبلی خود، GPT-1، زبان سمی کمتری تولید کرد، اگرچه در مقایسه با CTRL Wiki، یک مدل زبانی که بهطور کامل بر روی دادههای ویکیپدیا آموزش دادهاست، هم نسلهای بیشتری تولید کرد و هم سمیت بیشتری از زبانهای سمی ایجاد کرد.[۱۲]
پینوشت: سمی بودن زبان به معنای استفاده از کلماتی است که توهین آمیز هستند و با استفاده کردن ماشین از این کلمات موجب ترک کاربر میشوند.
در ۱۱ ژوئن ۲۰۲۰، اوپن ای آی اعلام کرد که کاربران میتوانند درخواست دسترسی به API کاربر پسند GPT-3، یک «مجموعه ابزاره یادگیری ماشین» برای کمک به اوپن ای آی برای «کشف نقاط قوت و محدودیت» این فناوری جدید را داشته باشند.[۱۳][۱۴] در این دعوتنامه توضیح داده شدهاست که چگونه این واسط برنامهنویسی کاربردی دارای رابط کاربری عمومی "text in, text out" است که میتواند تقریباً هر کاری که زبان انگلیسی را به جای مورد استفاده معمول تکمیل کند.[۱۳] به گفته یکی از کاربران، که به نسخه خصوصی اولیه OpenAI GPT-3 API دسترسی داشت، GPT-3 در نوشتن «متن منسجم شگفتانگیز» تنها با چند دستور ساده «بسیار خوب» بود.[۱۵] در آزمایش اولیه از ۸۰ فرد آمریکایی خواسته شد قضاوت کنند که آیا مقالههای کوتاه ۲۰۰ پوندی توسط انسان یا GPT-3 نوشته شدهاست. شرکت کنندگان در ۴۸ درصد مواقع قضاوت نادرست کردند و فقط کمی بهتر از حدس زدن تصادفی عمل کردند.[۸]
از آنجا که GPT-3 میتواند «مقالاتی خبری تولید کند که ارزیابی آنها از مقالاتی که توسط انسان نوشته شدهاست مشکل است»، GPT-3 دارای «پتانسیل پیشبرد کاربردهای مفید و مضر مدلهای زبانی است.»[۸]: 34 در مقاله خود در ۲۸ مه ۲۰۲۰، محققان بهطور مفصل "اثرات مضر GPT-3"[۱۱] که شامل «اطلاعات غلط، هرزنامه، فیشینگ، سوء استفاده از فرایندهای قانونی و دولتی، مقالهنویسی متقلبانه و بهانهگیری و مهندسی اجتماعی» است.[۸] نویسندگان توجه خود را به این خطرات جلب کرده و خواستار تحقیق دربارهٔ کاهش ریسک میشوند.[۸][۱۶]: 34
GPT-3 قادر به یادگیری بدون نمونه، چند نمونه و یک نمونه(one-shot learning) است.
استفاده
GPT-3 از طریق endpoint در پایتون و Curl، یا با دسترسی به یک playground رسمی مبتنی بر وب، یک رابط تبدیل متن خارج از متن را ارائه میدهد.
یک کاربر میتواند مقداری متن را به عنوان درخواست وارد کندو مدل یک تکمیل متن ایجاد میکند که سعی میکند با هر زمینه یا الگویی که داده شده مطابقت داشته باشد.
به عنوان مثال، اگر به API دستور «همانطور که دکارت گفت، فکر میکنم، بنابراین» را بدهید، با احتمال زیاد تکمیل «من هستم» را برمیگرداند.
مدلها، متن را با تفکیک آن به توکن درک و پردازش میکنند. نشانهها میتوانند کلمات یا فقط تکههای کاراکتر باشند. به عنوان مثال، کلمه "همبرگر" به نشانه "ham" , "bur" و "ger" تقسیم میشود، در حالی که یک کلمه کوتاه و رایج مانند "گلابی" یک نشانه واحد است. بسیاری از نشانهها با یک فضای سفید شروع میشوند، به عنوان مثال "سلام" و "خداحافظ".
بدنه درخواست
max_tokens - حداکثر تعداد توکن برای تکمیل.
دما - از چه دمای نمونه برداری استفاده شود. مقادیر بالاتر به این معنی است که مدل ریسکهای بیشتری را تحمل میکند. برای برنامههای خلاق تر ۹ دهم و برای مواردی که دارای پاسخ مشخص هستند ۰ (نمونهگیری argmax) را امتحان کنید.
top_p - جایگزینی برای نمونه برداری با دما، به نام نمونهگیری هسته، که در آن مدل نتایج توکنها را با جرم احتمال top_p در نظر میگیرد؛ بنابراین ۰٫۱ بدین معناست که فقط توکنهایی که دارای ۱۰٪ جرم بالایی هستند در نظر گرفته میشوند.
n - تعداد تکمیل برای هر اعلان.
stream - آیا پیشرفت جزئی را به عقب بازگردانید یا خیر. در صورت تنظیم، توکنها به عنوان رویدادهای ارسال شده توسط سرور فقط در صورت موجود شدن ارسال میشوند و جریان با پیام data: [DONE]
logprobs - شامل احتمال ورود به سیستم در logprobs به احتمال زیاد، و همچنین نشانههای انتخاب شدهاست.
echo - علاوه بر تکمیل، اعلان را بازگردانید
stop - حداکثر ۴ دنباله که API تولید توکنهای دیگر را متوقف میکند. متن برگشتی حاوی دنباله توقف نخواهد بود.
حضور_جریمه - عددی بین -۲٫۰ تا ۲٫۰. مقادیر مثبت، توکنهای جدید را بر اساس اینکه آیا تا به حال در متن ظاهر شدهاند مجازات میکند، و احتمال مدل را برای صحبت در مورد موضوعات جدید افزایش میدهد.
frequency_penality - عدد بین -۲٫۰ و ۲٫۰. مقادیر مثبت، توکنهای جدید را بر اساس فرکانس موجود در متن تا کنون مجازات میکند و احتمال تکرار کلمه بهطور کلمه را کاهش میدهد.
best_of -best_of در سمت سرور ایجاد میکند و «بهترین» (یکی با کمترین احتمال ورود به سیستم در هر توکن) را برمیگرداند. نتایج را نمیتوان پخش کرد.
logit_bias - احتمال ظاهر شدن نشانههای مشخص شده در تکمیل را اصلاح کنید.
مدلها و موتورها
GPT-3 دارای ۴ مدل است که هر کدام دارای موتورهای متعدد با قابلیتها و قیمتهای متفاوت هستند.
سریهای پایه
مجموعه ای از مدلهای GPT-3 که میتوانند زبان طبیعی را درک کرده و تولید کنند
آموزش سری Beta
مجموعه ای از مدلهای تخصصی که شبیه سری اصلی هستند، اما با رعایت دستورالعملها بهتر عمل میکنند
سری Codex Private beta
مجموعه ای از مدلها که میتوانند کد را درک کرده و تولید کنند، از جمله ترجمه زبان طبیعی به کد
فیلتر محتوا
یک مدل دقیق تنظیم شده که میتواند حساس بودن یا ناامن بودن متن را تشخیص دهد
سری پایه
مدلهای پایه GPT-3 میتوانند زبان طبیعی را درک کرده و تولید کنند. پایه شامل ۴ موتور، به نام davinci ، curie ، babbage و ada با سطوح مختلف از قدرت مناسب برای کارهای متفاوت است.
داوینچی قویترین مدل و آدا سریعترین مدل است.
سری دستورالعمل
Instruct شامل دو موتور davinci-instruct-beta و curie-instruct-beta .
سری Codex
مدلهای Codex فرزندان مدلهای پایه GPT-3 هستند که میتوانند کد را درک کرده و تولید کنند. دادههای آموزشی آنها شامل زبان طبیعی و کد عمومی GitHub است.
آنها در Python , JavaScript , Go , Perl , PHP , Ruby , Swift , TypeScript , SQL و Shell بیشترین توانایی را دارند.
Codex موتوری است که به GitHub Copilot قدرت میدهد.
محتوا-فیلتر
هدف این فیلتر تشخیص متن تولید شدهاست که ممکن است از API حساس یا ناامن باشد.
این برنامه دارای سه روش طبقهبندی متن safe ، sensitive یا unsafe میباشد
مدلهای دقیق تنظیم شده
مدلهای پایه را میتوان برای مورد خاص کاربر با تنظیم دقیق سفارشی کرد.
بررسیها
فرهاد منجو در بررسی ژوئیه ۲۰۲۰ در نیویورک تایمز گفت که توانایی GPT-3 در ایجاد کد رایانه، شعر و نثر نه تنها "شگفت انگیز"، "ترسناک" و "تحقیر آمیز" نیست، بلکه بیش از حد وحشتناک است. "[۱۷]
دیلی نوس یک سری مقاله از ۹ فیلسوف در GPT-3 ارائه داد.[۱۸]دیوید چالمرز، فیلسوف استرالیایی، GPT-3 را «یکی از جالبترین و مهمترین سیستمهای هوش مصنوعی تولید شده» توصیف کرد.[۳]
در National Law Review آمدهاست که GPT-3 یک «گام چشمگیر در فرایند بزرگتر» است، زیرا اوپن ای آِی و سایرین در حالی که به «تلاش برای دستیابی به اطلاعات کلی تر» ادامه میدهند «برنامههای مفیدی برای همه این قدرت» پیدا کردهاند.[۲۰]
مقاله ای در MIT Technology Review، که توسط گری مارکوس، منتقد Deep Learning نوشته شدهاست[۲۱] اظهار داشت که "GPT-3" درک جهان اغلب بهطور جدی خاموش است، به این معنی که شما هرگز نمیتوانید به آنچه میگوید اعتماد کنید. " به گفته نویسندگان، GPT-3 روابط بین کلمات را بدون درک معنای هر کلمه مدل میکند.
جروم پسنتی، سرپرست آزمایشگاه هوش مصنوعی فیس بوک، گفت GPT-3 ناامن است و به جنسیت گرایی، نژادپرستی و سایر زبانهای مغرضانه و منفی که توسط سیستم ایجاد میشود اشاره کرد، هنگامی که از آنها خواسته شد دربارهٔ یهودیان، زنان، سیاهپوستان و هولوکاست بحث کنند.
نابلا، یک شرکت نوپای فرانسوی متخصص در فناوری مراقبتهای بهداشتی، GPT-3 را به عنوان یک چت بات پزشکی آزمایش کرد، اگرچه خود اوپن ای آی نسبت به چنین استفاده ای هشدار داد. همانطور که انتظار میرفت، GPT-3 محدودیتهای زیادی را نشان داد. به عنوان مثال، هنگام آزمایش پاسخ GPT-3 در مورد مسائل مربوط به سلامت روان اینگونه بود، هوش مصنوعی به یک بیمار شبیهسازی شده توصیه کرد که خودکشی کند.[۲۲]
نوام چامسکی در مورد ارزش علمی GPT-3 شک و تردید خود را بیان کرد: این یک مدل زبانی نیست. برای زبانهای غیرممکن به همان اندازه برای زبانهای واقعی کار میکند؛ بنابراین، اگر به عنوان یک مدل زبانی در نظر گرفته شود، با معیارهای عادی علمی رد میشود. [...] شاید برای مقاصدی مفید باشد، اما به نظر میرسد بهطور کلی چیزی در مورد زبان یا شناخت به ما نمیگوید. "
برنامههای کاربردی
GPT-3 در برخی محصولات مایکروسافت برای ترجمه زبان معمولی به کد رایانه رایانه استفاده میشود.[۲۳]
GPT-3 توسط اندرو ماین برای AI Writer استفاده شدهاست،[۲۴] که به افراد اجازه میدهد از طریق ایمیل با شخصیتهای تاریخی مکاتبه کنند.
GPT-3 توسط جیسون رورر در پروژه چت بات با مضمون یکپارچهسازی با نام "Project December" استفاده شدهاست، که به صورت آنلاین قابل دسترسی است و به کاربران اجازه میدهد با استفاده از فناوری GPT-3 با چندین هوش مصنوعی گفتگو کنند.[۲۵]
GPT-3 توسط گاردین برای نوشتن مقاله ای در مورد بیضرر بودن هوش مصنوعی برای انسان استفاده شد. با ارائه برخی ایدهها و تولید هشت مقاله مختلف، که در نهایت در یک مقاله ادغام شد.[۲۶]
GPT-3 در AI Dungeon استفاده میشود که بازیهای ماجراجویی مبتنی بر متن را تولید میکند.
GPT-3 در Podacity استفاده میشود. Ai، اولین موتور جستجوی ساخته شده با GPT-3.[۲۷]
جنجال - جدال سرسختانه
اوپن ای آی ابتدا در سال ۲۰۱۵ به صورت غیرانتفاعی تأسیس شد.[۲۸] در سال ۲۰۱۹، اوپن ای آی مدل پیش ساز GPT-3 را به صورت عمومی منتشر نکرد، و از شیوههای منبع باز قبلی OpenAI شکایت کرد و نگران بود که این مدل باعث تداوم اخبار جعلی شود. OpenAI سرانجام نسخه GPT-2 را منتشر کرد که ۸ درصد از اندازه مدل اصلی بود.[۲۹] در همان سال، OpenAI تغییر شکل داد و یک شرکت انتفاعی بود.[۳۰] در سال ۲۰۲۰، مایکروسافت اعلام کرد که این شرکت دارای مجوز انحصاری GPT-3 برای محصولات و خدمات مایکروسافت پس از سرمایهگذاری چند میلیارد دلاری در اوپن ای آی است. این توافقنامه به اوپن ای آی اجازه میدهد تا یک API رو به عموم ارائه دهد تا کاربران بتوانند متن را به GPT-3 ارسال کنند تا خروجی مدل را دریافت کنند، اما فقط مایکروسافت به کد منبع GPT-3 دسترسی خواهد داشت.
مدلهای بزرگ زبانی، مانند GPT-3، به دلیل تأثیر محیطی آموزش و ذخیره مدلها، مورد انتقاد محققان اخلاق هوش مصنوعی گوگل قرار گرفتهاند، که در مقاله ای که توسط تیمنیت گبرو و امیلی M. بندر در سال ۲۰۲۱ منتشر شد آماده است
↑ ۱۱٫۰۱۱٫۱خطای یادکرد: خطای یادکرد:برچسب <ref> غیرمجاز؛ متنی برای یادکردهای با نام analyticsindiamag_Sagar_20200603 وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).
↑"TechCrunch – Startup and Technology News". TechCrunch. June 11, 2020. Retrieved July 31, 2020. If you’ve ever wanted to try out OpenAI’s vaunted machine learning toolset, it just got a lot easier. The company has released an API that lets developers call its AI tools in on “virtually any English language task. ”