تنظیم دقیق (Fine-Tuning) فرایندی است که در آن پارامترهای یک مدل باید بهصورت خیلی دقیقی تنظیم شوند تا مدل با مشاهدات مشخصی تناسب پیدا کند. این فرایند در یادگیری ماشین یک فرایند بسیار متداول است که در آن با اضافه کردن لایه های جدید مدل از پیش آموزش داده شدهای، سعی میشود که پارامتر های آن مدل حاصل به گونه ای تنظیم شود که دقت مدل روی یک مجموعه داده ی جدید نیز بالا رود.
در مدل های شبکه عصبی پردازش تصویر که کار آن ها دستهبندی(Classification)است، ابتدا لایه آخر را که فرضاً یک لایه n نورونی به m نورون(که در اینجا m نشان دهنده ی تعداد کلاس های دیتاست اصلی مدل است) را حذف میکنیم. سپس لایه آخر را یک لایه ی n به k(که در اینجا k نشان دهنده ی تعداد کلاس های دیتاستی میباشد که میخواهیم مدل را روی آن تنظیم دقیق کنیم) میگذاریم. حال وزن های همه لایه ها به جز لایه آخر که خودمان اضافه کردیم را ثابت میکنیم و حال دوباره مدل را آموزش میدهیم تا روی این دیتاست به دقت بالایی برسد.
واضح است که یادگیری انتقالی یک روش کارامد است و درک مناسبی از اینکه چرا کارامد میباشد داریم. مدل، ویژگی(Feature)های بسیاری را از تصاویری که قبلاً روی آنها آموزش داده شده است یادگرفته تا یک تصویر کلی مناسبی از اینکه دستهبندی تصاویر چگونه است داشته باشد.
در مسائل Ensemble هدف این است که به مدلی دستیابی پیدا کنیم که بتواند به بهترین شکل ممکن، خروجی را پیشبینی کند. در نتیجه به جای ساختن یک مدل و امید داشتن به آن که این مدل بهترین پیشبینی را از خروجی میکند، روشهای مجموعهای مدلهای بیشماری را در نظر میگیرند و آن مدلها را برای تولید یک مدل نهایی میانگین میگیرند. توجه به این نکته مهم است که Ensemble learning تنها شکل متدهای گروهی نیستند، بلکه امروزه محبوبترین و مرتبطترین روشها در Data Science هستند.
BAGGing یا Bootstrap AGGregating. BAGGing نام خود را به این دلیل گرفت که Bootstrapping و Aggregation را برای تشکیل یک مدل گروه ترکیب می کند. با توجه به نمونه ای از داده ها، چندین نمونه فرعی بوت استرپ کشیده می شوند. یک درخت تصمیم بر روی هر یک از نمونه های فرعی بوت استرپ تشکیل می شود. پس از تشکیل هر زیرنمونه درخت تصمیم، از الگوریتمی برای تجمیع درختان تصمیم برای تشکیل کارآمدترین پیشبینی کننده استفاده می شود. که در این مرحله معمولاً از Major voting استفاده میشود.
مرحله 1 - تصمیمگیری در مورد توپولوژی شبکه (در واقع بهینهسازی در نظر گرفته نمی شود، اما واضح است که بسیار مهم است)
مرحله 2 - تنظیم کردن نرخ یادگیری(Learning Rate)
یکی از رایج ترین الگوریتم های بهینهسازی، استوکستیک گرادیان دیسنت (SGD) است. ابرپارامترهایی که می توانند در SGD بهینه شوند عبارتند از نرخ یادگیری، تکانه، Decay و nesterov.
مرحله 3 - انتخاب یک Optimizer و یک تابع هزینه
مرحله 4 - تعیین کردن Batch size و تعداد Epoch وسپس استفاده از متدهای Cross Validation برای تنظیم ابرپارامترها
تخصیص مقادیر تصادفی به وزن ها بهتر از تخصیص 0 است. اما نکته ای وجود دارد که باید به خاطر داشته باشم این است که چه اتفاقی می افتد اگر وزن ها با مقادیر بالا یا مقادیر بسیار پایین مقداردهی اولیه شوند و یک مقدار اولیه اولیه منطقی برای مقادیر وزن چیست.
الف) اگر وزن ها با مقادیر بسیار بالا مقداردهی اولیه شوند، عبارت np.dot(W,X)+b به طور قابل توجهی بالاتر می شود و اگر یک تابع فعال سازی مانند sigmoid() اعمال شود، تابع مقدار خود را نزدیک به 1 در جایی که شیب گرادیان دارد ترسیم می کند. به آرامی تغییر می کند و یادگیری زمان زیادی می برد.
ب) اگر وزن ها با مقادیر کم مقدار دهی اولیه شوند، به 0 نگاشت می شود، جایی که حالت مانند بالا است.
اولین ابرپارامتری که ما سعی خواهیم کرد از طریق Cross Validation بهینهسازی کنیم، مقدار اولیه وزن های مختلف است. مقدار دهی اولیه وزن روشی برای تنظیم وزن شبکه عصبی به مقادیر تصادفی کوچک است که نقطه شروع بهینه سازی (یادگیری یا آموزش) مدل شبکه عصبی را مشخص می کند.
Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!