انحراف معیار[۱] (به انگلیسی: standard deviation) (نماد σ) یکی از شاخص های پراکندگی است که نشان میدهد بهطور میانگین دادهها چه مقدار از مقدار متوسط فاصله دارند. اگر انحراف معیار مجموعهای از دادهها نزدیک به صفر باشد، نشانه آن است که دادهها نزدیک به میانگین هستند و پراکندگی اندکی دارند؛ در حالی که انحراف معیار بزرگ بیانگر پراکندگی قابل توجه دادهها میباشد. انحراف معیار برابر ریشه دوم واریانس است. خوبی آن نسبت به واریانس، این است که هم بعد با دادهها میباشد.
انحراف معیار برای تعیین ضریب اطمینان در تحلیلهای آماری نیز به کار میرود. در مطالعات علمی، معمولاً دادههای با اختلاف بیشتر از دو انحراف معیار از مقدار میانگین به عنوان دادههای پرت در نظر گرفته و از تحلیل، خارج میشوند.
تاریخچه
نام انحراف معیار نخستین بار از سوی کارل پیرسون[۲] در سال ۱۸۹۴ پیشنهاد شد[۳] پیش از او نامهای دیگری برای این مفهوم پیشنهاد شده بود برای نمونه، گاوس به آن خطای میانگین میگفت.[۴]
نمونه عددی
انحراف معیار برای یک مجموعه متناهی، برابر است با جذر میانگین مربعات اختلاف دادهها با میانگینشان. نمونه عددی زیر میتواند نحوه محاسبه انحراف معیار را نشان دهد؛ نمرات یک کلاس به صورت زیر اعلام شدهاست:
۱۲، ۱۶، ۱۸، ۲۰، ۱۵، ۱۸، ۱۴، ۱۷، ۱۳، ۱۷
تعداد دادهها (جمعیت) برابر ۱۰ است. نخست، میانگین دادهها محاسبه میشود:
۱۲+۱۶+۱۸+۲۰+۱۵+۱۸+۱۴+۱۷+۱۳+۱۷/۱۰=۱۶
سپس مربع اختلاف مقدار هر داده با میانگین به دست میآید:
(۱۲–۱۶)۲=۱۶
(۱۶–۱۶)۲=۰
(۱۸–۱۶)۲=۴
(۲۰–۱۶)۲=۱۶
(۱۵–۱۶)۲=۱
(۱۸–۱۶)۲=۴
(۱۴–۱۶)۲=۴
(۱۷–۱۶)۲=۱
(۱۳–۱۶)۲=۹
(۱۷–۱۶)۲=۱
در گام بعدی، واریانس دادهها که میانگین مربعات اختلاف دادهها با میانگینشان است، به دست میآید:
۱۶+۰+۴+۱۶+۱+۴+۴+۱+۹+۱/10=5.6
در گام نهایی، جذر واریانس به عنوان انحراف معیار دادهها در نظر گرفته میشود:
√5.6=2.36
مقدار انحراف معیار به دست آمده در صورتی درست است که از همه جمعیت موجود استفاده شود. اگر نمونههای تصادفی از دادهها انتخاب شده و انحراف معیار برای آن نمونهها به دست آید، باید یک واحد از مقدار مخرج در گام پیش از نهایی کم شود. (در این مثال، اگر ۱۰ دادهی نمایش داده شده نمونه ای تصادفی از تعداد بیشتری داده بود، باید به جای ۱۰، مقدار ۹ قرار میگرفت) این تغییر را اصلاح بِسِل مینامند.
معمولاً با افزایش تعداد دادهها توزیع آنها به منحنی توزیع نرمال میل پیدا میکند. در توزیع نرمال، ۶۸٫۲٪ دادهها در فاصله کمتر از یک انحراف معیار نسبت به میانگین قرار دارند. این مقدار برای فاصلههای دو و سه انحراف معیار، به ترتیب ۹۵٫۴٪ و ۹۹٫۷٪ است. به بیان دیگر، احتمال آن که اختلاف یک داده با میانگین، بیش از سه انحراف معیار باشد، تنها ۰٫۳٪ (تقریباً معادل ۱ در ۳۰۰) است.
عملگر Ε امید ریاضی متغیر Χ را نشان میدهد. به این ترتیب، انحراف معیار را میتوان با استفاده از ویژگیهای عملگر امید ریاضی، به صورت زیر تعریف کرد:
متغیر تصادفی گسسته
اگر Χ شامل دادههای تصادفی یک مجموعه متناهی باشد و احتمال وقوع همه مقادیر نیز یکسان باشد؛ در این حالت، انحراف معیار برابر است با:
که میتوان با استفاده از علامت جمع، آن را به صورت زیر نیز نشان داد:
اگر مقدارهای مختلف، دارای احتمالات مختلف باشند؛ یعنی متغیر xi دارای احتمال وقوع pi باشد، انحراف معیار به صورت زیر در میآید:
متغیر تصادفی پیوسته
انحراف معیار متغیر پیوسته X با تابع احتمال (p(x با بهره گرفتن از رابطه زیر به دست میآید:
تخمین
اگر نتوان از همه جامعه آماری، برای محاسبه انحراف معیار استفاده کرد، بخشی از آن به عنوان نمونه تصادفی انتخاب میشود و انحراف معیار برای آن به دست میآید. این مقدار را به عنوان برآوردگر میشناسند و با پارامتر s نشان داده میشود.
خطای استاندارد
برای محاسبه خطا (error bar) اگر انحراف معیار را بر ریشه دوم تعداد دادهها تقسیم کنیم مقدار خطا بدست میآید