در آمار، مدلهای خطا در متغیرها یا مدلهای خطای اندازهگیری، مدلهای رگرسیونی هستند که خطاهای اندازهگیری را در متغیرهای مستقل میتوانند محاسبه کنند. در مقابل، مدلهای رگرسیون معیار فرض میکنند که آن رگرسیورها دقیقاً اندازهگیری شدهاند یا بدون خطا مشاهده شدهاند. به این ترتیب، این مدلها تنها خطاهای موجود در متغیرهای وابسته یا پاسخها را در نظر میگیرند.[نیازمند منبع]
در مواردی که برخی از رگرسیونها با خطا اندازهگیری شدهاند، تخمین بر پایه فرض استاندارد منجر به تخمینهای متناقض میشود، به این معنی که تخمین پارامترها حتی در نمونههای بسیار بزرگ به مقادیر واقعی تمایل ندارند. برای رگرسیون خطی ساده، این اثر یک ضریب دست کم برآورد است، که به عنوان سوگیری تضعیف شناخته میشود. در مدلهای غیر خطی، جهت بایاس احتمالاً پیچیدهتر است.[۱][۲][۳]
مثال انگیزشی
یک مدل رگرسیون خطی ساده را در نظر بگیرید:
جایی که نشان دهنده واپسگرای واقعی اما مشاهده نشدهاست. به جای این مقدار را با یک خطا مشاهده میکنیم:
جایی که خطای اندازهگیری مستقل از مقدار واقعی فرض میشود .
اگر به سادگی بر روی پسرفت کند، سپس برآورد کننده ضریب شیب برابر است با:
که به عنوان حجم نمونه همگرا میشود بدون محدودیت افزایش پیدا میکند:
این در تضاد با اثر «واقعی» است ، با استفاده از ,:
واریانسها غیر منفی هستند، به طوری که در حد برآورد شدهاست کوچکتر از ، اثری که آماردانان آن را تضعیف یا رقیق شدن رگرسیون مینامند.[۴] بنابراین برآوردگر حداقل مربعات ساده یک برآوردگر ناسازگار برای . با این حال، تخمینگر ثابت پارامتر مورد نیاز برای بهترین پیشبینیکننده خطی است با توجه به مشاهده شده : در برخی از برنامهها ممکن است این چیزی باشد که مورد نیاز است، نه برآورد ضریب رگرسیون «واقعی» ، اگرچه فرض میشود که واریانس خطاها در تخمین و پیشبینی یکسان است. این بهطور مستقیم از نتیجه ای که بلافاصله در بالا نقل شد و این واقعیت که ضریب رگرسیون مربوط به به واقعی مشاهده شدهاست s، در یک رگرسیون خطی ساده، توسط فرمول زیر داده میشود:
این ضریب است، به جای ، که برای ساختن یک پیشبینی کننده مورد نیاز است بر اساس مشاهده شده که در معرض نویز است.
می توان استدلال کرد که تقریباً تمام مجموعه داده های موجود حاوی خطاهایی با ماهیت و بزرگی متفاوت هستند، به طوری که سوگیری تضعیف بسیار مکرر است (اگرچه در رگرسیون چند متغیره جهت سوگیری مبهم است [۵] ). جری هاسمن این را قانون آهنین اقتصاد سنجی می داند: "میزان تخمین معمولاً کمتر از حد انتظار است." [۶]
مشخصات
معمولاً مدلهای خطای اندازهگیری با استفاده از رویکرد متغیرهای پنهان توصیف میشوند. اگر متغیر پاسخ است و مقادیر مشاهده شده از رگرسیون ها، پس فرض می شود که برخی از متغیرهای پنهان وجود دارد و که از رابطه عملکردی "واقعی" مدل پیروی می کنند ، و به نوعی که کمیت های مشاهده شده مشاهدات پر سر و صدا آنها باشد:
جایی که پارامتر مدل است و آن دسته از رگرسیون هایی هستند که فرض می شود بدون خطا هستند (به عنوان مثال زمانی که رگرسیون خطی حاوی یک برس است، رگرسیونی که با ثابت مطابقت دارد قطعاً "خطای اندازه گیری" ندارد). بسته به مشخصات، این رگرسیون های بدون خطا ممکن است به طور سوا بررسی شوند یا نشوند. در مورد دوم به سادگی فرض می شود که ورودی های متناظر در ماتریس واریانس از 'ها صفر هستند.
متغیرها ، ، همه مشاهده می شوند ، به این معنی که آمارگیر دارای مجموعه ای از داده ها است واحدهای آماری که فرآیند تولید داده شرح داده شده در بالا را دنبال می کنند. متغیرهای پنهان ، ، ، و با این حال رعایت نمی شوند.
این مشخصات تمام مدلهای خطا در متغیرهای موجود را در بر نمیگیرد. به عنوان مثال در برخی از آنها عملکرد ممکن است ناپارامتریک یا نیمه پارامتریک باشد. سایر رویکردها رابطه بین و به عنوان توزیعی به جای عملکردی، یعنی آنها این را فرض می کنند مشروط بر از توزیع خاصی (معمولاً پارامتریک) پیروی می کند.
منابع