در کاربردهای یادگیری نظارت شده در یادگیری ماشینی، خطای تعمیم[۱] (به انگلیسی: Generalization error) معیاری برای ارزیابی میزان دقت یک الگوریتم در پیشبینی دادههای از پیش دیده نشده است. به دلیل این که الگوریتمهای یادگیری توسط نمونههای محدودی ارزیابی میشوند، ارزیابی این الگوریتمها به خطای نمونهگیری حساس است. در نتیجه، معیارهای پیشبینی با توجه به دادههای کنونی ممکن است اطلاعات جدیدی در مورد توانایی پیشبینی در دادههای جدید ارائه نکند. با اجتناب از بیشبرازش میتوان خطای تعمیم را کاهش داد. عملکرد یک الگوریتم یادگیری ماشین با تجسم نمودارهایی به نام منحنی فراگیری انجام میپذیرد که خطای تعمیم را در فرایند یادگیری تخمین میزنند.
تعریف
هدف در یک مسئلهٔ یادگیری، یافتن تابع است که با توجه به دادهٔ ورودی ، خروجی را پیشبینی میکند. زیرنویس نشان میدهد که تابع براساس مجموعهای شامل داده ساخته شدهاست. خطای تعمیم، برای تابع ، روی تمام مقادیر و برابر است با:[۲]
بدون دانستن توزیع احتمال توأم، محاسبهٔ مقدار غیرممکن است. در عوض، میتوانیم خطا را روی دادههای نمونه محاسبه کنیم که به آن خطای تجربی میگویند. خطای تجربی با دانستن داده برابر است با:
و یک الگوریتم تعمیمپذیر خواهد بود اگر:
خطای تعمیم ، برای یک تابع وابسته به دادهٔ که توسط یک الگوریتم یادگیری بر اساس نمونه محاسبه شدهاست، از اهمیت زیادی برخوردار است. با توجه به این که محاسبهٔ مستقیم نیازمند دانستن توزیع احتمال است که ناشناخته است، هدف بسیاری از مسائل در نظریه یادگیری آماری محدود کردن یا مشخص کردن تفاوت خطای تعمیم و خطای تجربی است:
در نتیجه، هدف مشخص کردن احتمال است که بتوانیم خطای تعمیم را، با جمع خطای تجربی و یک کران خطا (در حالت کلی وابسته به و ) محدود کنیم.
در بسیاری از الگوریتمها، نشان داده شدهاست که یک الگوریتم، در صورتی که معیارهای ثبات خاصی را برآورده کند، دارای مرزهای تعمیم است.
بهطور خاص، اگر الگوریتمی متقارن باشد (ترتیب ورودیها بر نتیجه تأثیری نگذارد)، تابع هزینهٔ محدودی داشته باشد و دو شرط پایداری را برآورده کند، تعمیم مییابد. این شرایط را میتوان به صورت زیر بیان کرد:
پایداری اعتبارسنجی متقابل یکطرفه (به انگلیسی: Leave-one-out cross-validation)
الگوریتم این ثبات را خواهد داشت اگر به ازای هر ، وجود داشته باشد و که:
و و زمانی که به صفر میل کنند.
پایداری امیدریاضی اعتبارسنجی یکطرفه (به انگلیسی: Expected-leave-one-out error Stability)
الگوریتم این ثبات را خواهد داشت اگر به ازای هر ، وجود داشته باشد و که:
و و زمانی که به صفر میل کنند.
الگوریتمهای پایدار اثباتشده (به انگلیسی: Algorithms with proven stability)
ثابت شدهاست که تعدادی از الگوریتمها پایدار هستند، و در نتیجه خطای تعمیم آنها محدود است. فهرستی از این الگوریتمها و مقالاتی که پایداری آنها را ثابت کردهاند، اینجا موجود است.
مفاهیم خطای تعمیم و بیشبرازش به هم مرتبط هستند. بیشبرازش زمانی اتفاق میافتد که تابع به نویز داخل نمونهها حساس شود. در نتیجه، این تابع روی مجموعهٔ آموزشی به خوبی عمل میکند، اما روی دادههای دیگر که از توزیع احتمال مشترک و هستند، به خوبی عمل نمیکند؛ بنابراین، هرچه بیشبرازش بیشتر باشد، خطای تعمیم هم بزرگتر خواهد بود.
میزان بیشبرازش را میتوان با استفاده از روش اعتبارسنجی متقابل محاسبه کرد، که نمونهها را به نمونههای آموزشی و نمونههای آزمایشی تقسیم میکند. سپس مدل بر روی نمونههای آموزشی، آموزش داده میشود و بر روی نمونههای آزمایشی، ارزیابی میشود. نمونههای آزمایشی قبلاً توسط الگوریتم دیده نشدهاند، بنابراین یک مجموعه نمونهٔ تصادفی از توزیع احتمال مشترک و خواهد بود. این مجموعه از نمونههای آزمایشی، به ما اجازه میدهد تا خطای مورد انتظار را تقریب بزنیم و تخمین خوبی از خطای تعمیم داشته باشیم.
الگوریتمهای زیادی برای جلوگیری از بیشبرازش وجود دارد. الگوریتمهای کمینهسازی میتوانند توابع پیچیدهتری را جریمه کنند (معروف به منظمسازی تیخونوف) یا فضای فرضیه را میتوان به صورت صریح، در قالب توابع یا با افزودن محدودیتهایی به تابع کمینهسازی (منظمسازی ایوانوف) محدود کرد.
یافتن تابعی که بیشبرازش نداشته باشد، در تضاد با هدف یافتن تابعی است که به اندازه کافی پیچیده باشد تا ویژگیهای دادهها را به تصویر بکشد. این به عنوان مبادله بایاس و واریانس معروف است. ساده نگه داشتن یک تابع برای جلوگیری از بیشبرازش ممکن است باعث ایجاد بایاس در پیشبینیهای بهدستآمده شود، در حالی که پیچیدهتر بودن آن منجر به بیشبرازش و واریانس بیشتر خواهد شد و به حداقل رساندن هر دو بهطور همزمان، غیرممکن است.