در یادگیری ماشین، تنظیم دقیق رویکردی برای انتقال یادگیری است که در آن وزنهای یک مدل از پیش آموزشدیده بر روی دادههای جدید آموزش داده میشود.[۱] تنظیم دقیق را میتوان در کل شبکه عصبی یا فقط روی زیرمجموعه ای از لایههای آن انجام داد، در این صورت لایههایی که تنظیم دقیق نمیشوند «یخ زده» میشوند (در مرحله پس انتشار به روز نمیشوند).[۲]
برای برخی از معماریها، مانند شبکههای عصبی کانولوشن، معمول است که لایههای قبلی (آنهایی که نزدیک به لایه ورودی هستند) ثابت نگه داشته شوند، زیرا آنها ویژگیهای سطح پایینتر را جذب میکنند، در حالی که لایههای بعدی اغلب ویژگیهای سطح بالا را تشخیص میدهند که میتواند بیشتر به لایه ورودی مرتبط باشد. وظیفه ای که مدل بر روی آن آموزش دیدهاست.[۳][۴]
تنظیم دقیق در پردازش زبان طبیعی (NLP) به ویژه در حوزه مدلسازی زبان رایج است. مدلهای زبان بزرگ مانند GPT-2OpenAI را میتوان در پایین دست تنظیم کرد تولید نتایج بهتر از مدل از پیش آموزش دیده بهطور معمول.[۵] مدلهایی که از قبل روی پیکرههای بزرگ و عمومی آموزش داده شدهاند، معمولاً با استفاده مجدد از پارامترهای مدل به عنوان نقطه شروع و افزودن یک لایه ویژه کار که از ابتدا آموزش داده شدهاست، بهخوبی تنظیم میشوند.[۶] تنظیم دقیق مدل کامل نیز رایج است و اغلب نتایج بهتری به همراه دارد، اما از نظر محاسباتی گرانتر است.[۵] تنظیم دقیق کامل نیز مستعد بیش از حد برازش است و ممکن است باعث شود که مدل در دادههای خارج از توزیع دادههای آموزشی مورد استفاده در هنگام تنظیم دقیق عملکرد بدتری داشته باشد.[۷]
↑Zeiler, Matthew D; Fergus, Rob (2013). "Visualizing and Understanding Convolutional Networks". arXiv:1311.2901. {{cite journal}}: Cite journal requires |journal= (help)
↑ ۵٫۰۵٫۱Dingliwal, Saket; Shenoy, Ashish; Bodapati, Sravan; Gandhe, Ankur; Gadde, Ravi Teja; Kirchhoff, Katrin (2021). "Prompt Tuning GPT-2 language model for parameter-efficient domain adaptation of ASR systems". arXiv:2112.08718. {{cite journal}}: Cite journal requires |journal= (help)
↑Dodge, Jesse; Ilharco, Gabriel; Schwartz, Roy; Farhadi, Ali; Hajishirzi, Hannaneh; Smith, Noah (2020). "Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping". arXiv:2002.06305. {{cite journal}}: Cite journal requires |journal= (help)
↑Kumar, Ananya; Raghunathan, Aditi; Jones, Robbie; Ma, Tengyu; Liang, Percy (2022). "Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution". arXiv:2202.10054. {{cite journal}}: Cite journal requires |journal= (help)
↑Yu, Yue; Zuo, Simiao; Jiang, Haoming; Ren, Wendi; Zhao, Tuo; Zhang, Chao (2020). "Fine-Tuning Pre-trained Language Model with Weak Supervision: A Contrastive-Regularized Self-Training Approach". arXiv:2010.07835. {{cite journal}}: Cite journal requires |journal= (help)