احتمالات بیزی تفسیرهای احتمال
قضیه بیز قاعده بیز • عامل بیز استنباط بیزی شبکههای بیزی
احتمال پیشین • احتمال پسین • تابع درستنمایی توزیع مزدوج پیشین Posterior predictive Hyperparameter • Hyperprior
Principle of indifference اصل حداکثر آنتروپی Empirical Bayes method
قاعده کرام ول Bernstein–von Mises theorem معیار اطلاع بیزی-شوارتز بازه مورد قبول برآوردگر بیشینهگر احتمال پسین
رگرسیون خطی بیز برآوردگر بیزی Approximate Bayesian computation
ردهبندی بیزی دستهبندی کننده نایو بیز
دستهبندیکننده بیز ساده (به انگلیسی: Naive Bayes classifier) در یادگیری ماشین به گروهی از دستهبندیکنندههای ساده بر پایه احتمالات گفته میشود که با فرض استقلال متغیرهای تصادفی و براساس قضیه بیز ساخته میشوند. بهطور ساده روش بیز روشی برای دستهبندی پدیدهها، بر پایه احتمال وقوع یا عدم وقوع یک پدیده است. این روش از سادهترین الگوریتمهای پیشبینی است که دقت قابل قبولی هم دارد.[۱][۲] دقت آن را میتوان با استفاده از برآورد چگالی کرنل به صورت قابل توجهی بالا برد. شیوه یادگیری در روش بیز ساده از نوع یادگیری با نظارت است.[۱][۲] این روش در دهه ۱۹۶۰ در میان دانشمندان بازیابی اطلاعات توسعه یافت و هنوز هم از روشهای محبوب در دستهبندی اسناد بهشمار میآید.
بیز ساده فرض را بر استقلال متغیرهای پیشبینی میگذارد از این رو بیز ساده یا بیز سادهلوح خوانده میشود.[۲] برای نمونه در مسئله پیشبینی یک میوه (این میوه مثلاً ممکن است پرتقال باشد) اگر میوه نارنجی و کروی با شعاع حدود ده سانتیمتر باشد و به شرطی که این احتمالات به درستی از همدیگر مستقل باشند بیز ساده در تشخیص اینکه این میوه پرتقال است یا نه بهدرستی عمل خواهد کرد.
برنامههای کاربردی بسیاری هستند که پارامترهای نایو بیز را تخمین میزنند، بنابراین افراد بدون سروکار داشتن با تئوری بیز میتوانند از این امکان به منظور حل مسایل مورد نظر بهره ببرند. با وجود مسائل طراحی و پیش فرضهایی که در خصوص روش بیز وجود دارد، این روش برای طبقهبندی کردن بیشتر مسایل در جهان واقعی، مناسب است.
اگر n {\displaystyle n} متغیر ورودی داشته باشیم یعنی x = ( x 1 , … , x n ) {\displaystyle \mathbf {x} =(x_{1},\dots ,x_{n})} و خروجی y {\displaystyle \mathbf {y} } از یک مجموعه K {\displaystyle K} عضوی باشد، هدف از مدلسازی پیدا کردن احتمال مشروط هر کدام از این K {\displaystyle K} دسته است یعنی p ( C k ∣ x 1 , … , x n ) {\displaystyle p(C_{k}\mid x_{1},\dots ,x_{n})\,} . طبق قانون بیز این احتمال برابر است با[۳]
p ( C k ∣ x ) = p ( C k , x ) p ( x ) ∝ p ( C k , x ) {\displaystyle p(C_{k}\mid \mathbf {x} )={\frac {p\left(C_{k}\,,\,\mathbf {x} \right)}{p(\mathbf {x} )}}\,\propto p\left(C_{k}\,,\,\mathbf {x} \right)}
به عبارت دیگر احتمال مشروط p ( C k ∣ x 1 , … , x n ) {\displaystyle p(C_{k}\mid x_{1},\dots ,x_{n})\,} به توزیع توأم x {\displaystyle \mathbf {x} } و C k {\displaystyle C_{k}} بستگی دارد. طبق قانون زنجیرهای این توزیع توأم برابر است با:
p ( C k , x 1 , … , x n ) = p ( x 1 , … , x n , C k ) p ( C k , x 1 , … , x n ) = p ( x 1 ∣ x 2 , … , x n , C k ) p ( x 2 , … , x n , C k ) p ( C k , x 1 , … , x n ) = p ( x 1 ∣ x 2 , … , x n , C k ) p ( x 2 ∣ x 3 , … , x n , C k ) p ( x 3 , … , x n , C k ) p ( C k , x 1 , … , x n ) = … p ( C k , x 1 , … , x n ) = p ( x 1 ∣ x 2 , … , x n , C k ) p ( x 2 ∣ x 3 , … , x n , C k ) … p ( x n − 1 ∣ x n , C k ) p ( x n ∣ C k ) p ( C k ) {\displaystyle {\begin{aligned}p(C_{k},x_{1},\dots ,x_{n})&=p(x_{1},\dots ,x_{n},C_{k})\\p(C_{k},x_{1},\dots ,x_{n})&=p(x_{1}\mid x_{2},\dots ,x_{n},C_{k})\,p(x_{2},\dots ,x_{n},C_{k})\\p(C_{k},x_{1},\dots ,x_{n})&=p(x_{1}\mid x_{2},\dots ,x_{n},C_{k})\,p(x_{2}\mid x_{3},\dots ,x_{n},C_{k})\,p(x_{3},\dots ,x_{n},C_{k})\\p(C_{k},x_{1},\dots ,x_{n})&=\dots \\p(C_{k},x_{1},\dots ,x_{n})&=p(x_{1}\mid x_{2},\dots ,x_{n},C_{k})\,p(x_{2}\mid x_{3},\dots ,x_{n},C_{k})\dots p(x_{n-1}\mid x_{n},C_{k})\,p(x_{n}\mid C_{k})p(C_{k})\\\end{aligned}}}
حال اگر فرض کنیم هر متغیری نسبت به متغیرهای دیگر به شرط دسته C k {\displaystyle C_{k}} مستقل است یعنی p ( x i ∣ x i + 1 , … , x n , C k ) = p ( x i ∣ C k ) {\displaystyle p(x_{i}\mid x_{i+1},\dots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,} به نتیجه پایین میرسیم:
p ( C k ∣ x 1 , … , x n ) ∝ p ( C k , x 1 , … , x n ) p ( C k , x 1 , … , x n ) = p ( C k ) p ( x 1 ∣ C k ) p ( x 2 ∣ C k ) p ( x 3 ∣ C k ) ⋯ p ( C k , x 1 , … , x n ) = p ( C k ) ∏ i = 1 n p ( x i ∣ C k ) {\displaystyle {\begin{aligned}p(C_{k}\mid x_{1},\dots ,x_{n})&\varpropto p(C_{k},x_{1},\dots ,x_{n})\\p(C_{k},x_{1},\dots ,x_{n})&=p(C_{k})\ p(x_{1}\mid C_{k})\ p(x_{2}\mid C_{k})\ p(x_{3}\mid C_{k})\ \cdots \\p(C_{k},x_{1},\dots ,x_{n})&=p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k})\,\end{aligned}}}
با نرمالسازی عبارت قبلی میتوان توزیع احتمال مشروط را پیدا کرد، در معادله پایین Z = p ( x ) = ∑ k p ( C k ) p ( x ∣ C k ) {\displaystyle Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})} همان ضریب نرمالسازی است:
p ( C k ∣ x 1 , … , x n ) = 1 Z p ( C k ) ∏ i = 1 n p ( x i ∣ C k ) {\displaystyle p(C_{k}\mid x_{1},\dots ,x_{n})={\frac {1}{Z}}p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k})}
اگر هدف پیدا کردن محتملترین دسته باشد، به ضریب نرمالسازی یعنی Z {\displaystyle Z} نیازی نیست:
y ^ = argmax k ∈ { 1 , … , K } p ( C k ) ∏ i = 1 n p ( x i ∣ C k ) . {\displaystyle {\hat {y}}={\underset {k\in \{1,\dots ,K\}}{\operatorname {argmax} }}\ p(C_{k})\displaystyle \prod _{i=1}^{n}p(x_{i}\mid C_{k}).}
برای مدلسازی دستهبندیکننده بیز ساده برای تمام k {\displaystyle k} ها به تخمین p ( C k ) {\displaystyle p(C_{k})} و p ( x i ∣ C k ) {\displaystyle p(x_{i}\mid C_{k})} نیاز داریم. p ( C k ) {\displaystyle p(C_{k})} به سادگی با حساب درصد دادههایی که متعلق به کلاس C k {\displaystyle C_{k}} هستند بدست میآید. برای بدست آوردن p ( x i ∣ C k ) {\displaystyle p(x_{i}\mid C_{k})} راههای مختلفی وجود دارد، تخمین توزیع چند جملهای یا توزیع طبیعی روشهایی متداول برای این کار هستند.[۴]
در روش تخمین توزیع طبیعی، p ( x i ∣ C k ) {\displaystyle p(x_{i}\mid C_{k})} را با یک توزیع طبیعی با میانگین μ i , k {\displaystyle \mu _{i,k}} و واریانس σ i , k 2 {\displaystyle \sigma _{i,k}^{2}} تخمین میزنیم و μ i , k {\displaystyle \mu _{i,k}} و σ i , k 2 {\displaystyle \sigma _{i,k}^{2}} را از طریق درست نمایی بیشینه بدست میآوریم:
p ( x i = v ∣ C k ) = 1 2 π σ i , k 2 exp ( − ( v − μ i , k ) 2 2 σ i , k 2 ) {\displaystyle p(x_{i}=v\mid C_{k})={\frac {1}{\sqrt {2\pi \sigma _{i,k}^{2}}}}\,\exp \left(-{\frac {(v-\mu _{i,k})^{2}}{2\sigma _{i,k}^{2}}}\right)}
اگر x i {\displaystyle x_{i}} گسسته باشد، توزیع p ( x i = v ∣ C k ) {\displaystyle p(x_{i}=v\mid C_{k})} را میتوان با یک توزیع چند جملهای تخمین زد.[۴]
در این مثال دادههایی از شخصی داریم که به ما میگوید که در شرایط مختلف آب و هوایی این شخص گلف بازی میکند یا خیر.[۵]
دستهبندیکننده با استفاده از این دادهها به جداول زیر میرسد. در هر جدول احتمال شرایط مختلف آب و هوایی به شرط این که شخص گلف بازی کند یا نکند آمده است.
فرض کنید هوا بارانی، طوفانی، سرد و مرطوب باشد. حال میخواهیم مشخص کنیم که این شخص گلف بازی میکند یا خیر. فرض کنید x 1 {\displaystyle x_{1}} معادل بارانی بودن، x 2 {\displaystyle x_{2}} معادل طوفانی بودن، x 3 {\displaystyle x_{3}} معادل سرد بودن و x 4 {\displaystyle x_{4}} معادل مرطوب بودن باشد. همچنین C 1 {\displaystyle C_{1}} معادل بازی کردن و C 2 {\displaystyle C_{2}} معادل بازی نکردن باشد. در این صورت داریم
p ( C 1 ∣ x ) ∝ p ( C 1 ) p ( x 1 ∣ C 1 ) p ( x 2 ∣ C 1 ) p ( x 3 ∣ C 1 ) p ( x 4 ∣ C 1 ) = 9 14 × 2 9 × 3 9 × 3 9 × 3 9 ≈ 0.0053 p ( C 2 ∣ x ) ∝ p ( C 2 ) p ( x 1 ∣ C 2 ) p ( x 2 ∣ C 2 ) p ( x 3 ∣ C 2 ) p ( x 4 ∣ C 2 ) = 5 14 × 3 5 × 3 5 × 1 5 × 4 5 ≈ 0.02 ⟹ p ( C 2 ∣ x ) > p ( C 1 ∣ x ) {\displaystyle {\begin{aligned}&p(C_{1}\mid \mathbf {x} )\propto p(C_{1})p(x_{1}\mid C_{1})p(x_{2}\mid C_{1})p(x_{3}\mid C_{1})p(x4\mid C_{1})={\frac {9}{14}}\times {\frac {2}{9}}\times {\frac {3}{9}}\times {\frac {3}{9}}\times {\frac {3}{9}}\approx 0.0053\\&p(C_{2}\mid \mathbf {x} )\propto p(C_{2})p(x_{1}\mid C_{2})p(x_{2}\mid C_{2})p(x_{3}\mid C_{2})p(x4\mid C_{2})={\frac {5}{14}}\times {\frac {3}{5}}\times {\frac {3}{5}}\times {\frac {1}{5}}\times {\frac {4}{5}}\approx 0.02\\&\Longrightarrow p(C_{2}\mid \mathbf {x} )>p(C_{1}\mid \mathbf {x} )\\\end{aligned}}}
پس دستهبندیکننده برچسب C 2 {\displaystyle C_{2}} را انتخاب خواهد کرد. در نتیجه شخص با این شرایط گلف بازی نخواهد کرد.
تحقیقاتی در سال ۲۰۰۴ دلایل نظریهای برای رفتارهای غیر منطقی بیز مطرح کرد و همچنین در سال ۲۰۰۶ مشاهدات فراگیری به منظور مقایسه این روش با سایر روشهای طبقهبندی مانند boosted trees و جنگل تصادفی (random forests) انجام شد که بر کارا بودن این روش صحه گذاشتند.
از مزایای این روش میتوان به موارد زیر اشاره کرد:[۶]
علاوه بر مزایایی که این دستهبندیکننده دارد معایبی نیز دارد، از جمله:
برخی از کاربردهای این دستهبندیکننده به شرح زیر است:[۷]
{{cite journal}}
|date=
{{cite book}}
|edition=