آلفا زیرو یک برنامه کامپیوتری است که توسط شرکت تحقیقاتی هوش مصنوعی آلفابت دیپ مایند گسترش یافته و روشی شبیه آلفاگو زیرو است. در ۵ دسامبر ۲۰۱۷ تیم دیپ مایند یک پیشوند را برای معرفی آلفازیرو ارائه کرد، که طی ۲۴ ساعت، با شکست دادن برنامههای قهرمان جهان، استوکفیش و نسخه ۳ روزه آلفاگو زیرو به سطح فوقالعاده ای از بازی در مقابل این سه بازی دست یافت. آلفا زیرو تنها از طریق ۵٬۰۰۰ بازی با خود با ۶۴ TPU نسل دوم آموزش دید و برای تربیت شبکههای عصبی، فقط به صورت رایانش موازی، بدون دسترسی به کتاب بازبینی شطرنج یا جداول پایان بازی، آموزش داده شد. پس از ۴ ساعت آموزش، دیپ مایند برآورد کرد که آلفازیرو در سطح بالاتری از استوکفیش نسخهٔ ۸ بازی میکند؛ بعد از ۹ ساعت آموزش، این الگوریتم بهطور قطعی استوکفیش را در یک تورنمنت ۱۰۰ بازی زماندار شکست داد. الگوریتم آموزشدیده روی یک ماشین واحد با چهار TPU بازی کرد.
ارتباط با آلفاگو زیرو
آلفا زیرو (AZ) یک متغیر کلی از الگوریتم آلفا گو زیرو (AGZ) است و میتواند شوگی، شطرنج و گو بازی کند. تفاوتهای بین این دو عبارتند از:
- AZ دارای قوانین سختافزاری برای تنظیم هایپرپارامتر جستجو است.
- شبکه عصبی بهطور مداوم به روز میشود.
- گو (بر خلاف شطرنج) تحت بازتابها و چرخشهای خاص متقارن است؛ آلفا گو زیرو برای استفاده از این تقارنها برنامهریزی شده بود؛ ولی آلفا زیرو این چنین نیست.
- شطرنج برخلاف گو میتواند با تساوی خاتمه یابد؛ بنابراین میتوانید احتمال یک بازی را در نظر بگیرید.
آلفازیرو در مقابل المو و استوک فیش
با مقایسه جستجوی درخت مو نت کارلو در مییابیم که، آلفازیرو تنها ۸۰٬۰۰۰ موقعیت در ثانیه در شطرنج و۴۰۰۰۰ تا در شوگی در مقایسه با ۷۰ میلیون برای stockfish و ۳۵ میلیون برای elmo جستجو میکند. آلفازیرو با استفاده از شبکه عصبی عمیق خود، تعداد کم ارزیابیها را جبران میکند تا تمرکز بیشتری بر انتخابهای خاص داشته باشد.
آموزش
آلفازیرو تنها از طریق خود بازی، با استفاده از ۵۰۰۰ نسل اول TPU برای تولید بازیها و ۶۴ نسل دوم TPU برای شبکههای عصبی آموزش داده شد. به موازات آن، آلفازیرو در دوره آموزشی در برابر معیارهای خود(Stockfish, elmo، یا AlphaGo Zero) در بازیهای کوتاهمدت با یکدیگر تطبیق داده شد تا مشخص شود که سطح آموزش تا چه حد پیشرفت کردهاست. دیپ مایند تشخیص داد که عملکرد آلفا زیرو نیاز به بیش از ۴ ساعت تمرین برای استوک فیش، دو ساعت برای المو و ۸ ساعت برای آلفاگو زیرو دارد.
نتایج
شطرنج
در مسابقات شطرنج آلفازیرو در برابر استوک فیش ۸ (قهرمان جهان 2016 TCEC)، به هر برنامه یک دقیقه زمان برای تفکر در هر حرکت داده شد. استوک فیش، ۶۴ رشته و یک اندازه هش ۱ گیگابایتی را به یک مجموعه اختصاص داد. تنظیماتی که ترد رمستاد بعداً از آن به عنوان زیرمجموعه انتقاد کرد. آلفا زیرو در شطرنج فقط ۹ ساعت قبل از مسابقات آموزش داده شده بود. در طول این مسابقات، آلفازیرو با چهار TPU مخصوص به برنامه، یک ماشین تک منظوره را اجرا کرد. در ۱۰۰ بازی از موقعیت آغاز نورمال، آلفازیرو ۲۵ بازی را به عنوان سفید برد، ۳ بازی را سیاه برد، و ۷۲ راند باقیمانده را به تساوی کشید. در یک سری مسابقات دوازدهگانه با ۱۰۰ بازی (با محدودیت زمانی نامعلوم یا محدودیت منابع) در برابر استوک فیش، آلفازیرو ۱۲ تا را برنده شد، ۸۸۶ را به تساوی کشید و ۲۴ تا را باخت.
شوگی
آلفازیرو در مجموع ۱۲ ساعت قبل از این مسابقات برای شوگی آموزشدیده بود. در صد بازی شوگی در برابر المو، آلفازیرو نود بار برنده شد، هشت بار باخت و دو بار از بازی دست کشید. همانند بازیهای شطرنج، در هر برنامه به ازای هر حرکت یک دقیقه به طول انجامید و به المو ۶۴ نخ و اندازه هش ۱ گیگابایت داده شد.
گو
بعد از ۳۴ ساعت خودآموزشی گو در مقابله با آلفاگوزیرو، آلفا زیرو ۶۰ بازی را برد و ۴۰ تا را باخت.
تحلیل و بررسی
دیپ مایند در پیشنویس خود بیان کرد که بازی شطرنج بیش از چندین دهه نشان دهنده اوج تحقیق AI است.برنامههای مربوط به هنر مبتنی بر موتورهایی قدرتمند هستند که میلیونها موقعیت را با استفاده از تخصص حوزه هنر و سازگاری با دامنه پیچیده جستجو میکنند. آلفازیرو یک الگوریتم یادگیری تقویتی است که در اصل برای بازی گو طراحی شد و در عرض چند ساعت نتایج بسیار خوبی را دریافت کرد. دمیس هاسابیس، شطرنج ساز معروف گفتهاست آلفازیرو یک نوع بیگانه است. با توجه به مشکلاتی که در شطرنج برای پیروزی مقابل یک رقیب قوی وجود دارد، نتیجه 28-72-0 حاشیه قابل توجهی از پیروزی است. برخی از اساتید بزرگ مانند هیکارو ناکامورا و لاری کاوفمن پیروزیهای آلفازیرو را کم اهمیت جلوه دادند. رمستاد علاوه بر این خاطر نشان ساخت که استوک فیش برای حرکات ثابت زمان ثابت و نسخه مورد استفاده یک ساله بهینه نشدهاست.
واکنش ها و انتقادات
در مقالات مطرح شدهاست که آموزش شطرنج فقط چهار ساعت طول میکشد: " کمی بیش از زمان بین صبحانه و ناهار." مجله وایرد این بازی را به عنوان "نخستین قهرمان چندملیتی" معرفی کرد. به گفته جوانا برینسون، متخصص هوش مصنوعی، "مهارت برای تبلیغات خوب"، آن رادر جایگاه قویتری در مقابل رقیب قرار میدهد. این متن دربارهٔ استخدام بهترین برنامه نویسان نیست بلکه بسیار سیاسی است چون به شرکت گوگل در هنگام مذاکره با دولت و قانون گذاران در نگاه به بخش هوش مصنوعی کمک میکند. شطرنج بازان بزرگ شطرنج تحتتاثیر آلفازیرو قرار گرفته بودند. پیتر هینه نیلسن استاد بزرگ دانمارکی، آلفازیرو را به عنوان یکی از انواع ناسازگار اما برتر معرفی کرد. جان لودویج هامر، استاد بزرگ نروژی، بازی آلفازیرو را به عنوان "شطرنج با جنون حمله" با درک عمیق توصیف کرد.گری کاسپاروف، قهرمان سابق شطرنج، گفت: " دستاوردی که حاصل شده، قابل توجه است، حتی اگر ما آن را از آلفاگو انتظار داشته باشیم. استاد بزرگ هیکارو ناکامورا کمتر تحت تأثیر قرار گرفت و گفت: من برای این نتایج اعتبار خاصی قائل نیستم چون بر این عقیده ام که آلفازیرو با استفاده از سوپرکامپیوتر گوگل کار میکند، استوک فیش بر روی سخت افزار کار نمیکند و اگر تمایل دارید قابلمقایسه باشید،باید استوک فیش را مثل ابر کامپیوتر اداره کنید. ولف مارو بازیکن برتر شطرنج ایالاتمتحده نیز تحتتاثیر قرار نگرفتهاست و ادعا میکندکه آلفازیرو احتمالا نمیتواند به نیمهنهایی یک رقابت عادلانه مانند TCEC که در آن همه موتورها با سختافزار مساوی بازی میکنند، دست پیدا کند. یانرواو سازند المو اظهار کرد که اگرچه آلفازیرو بهطور کامل آن را مورد ضربت قرار داد، امتیاز آلفازیرو در شوگی در نقطهای که در حداکثر ۱۰۰ درجه بالاتر از المو قرار دارد متوقف شد.
جستارهای وابسته
منابع