شاخص دیویس بولدین (DBI) که توسط David L. Davies و Donald W. Bouldin در سال ۱۹۷۹ معرفی شد، روشی برای ارزیابی الگوریتمهای خوشهبندی است. [۱] یک روش ارزیابی درونی، که در آن از مقادیر و ویژگی های ذاتی مجموعه داده استفاده میشود. اشکال این روش این است که وقتی یک مقدار خوب توسط این روش برای ارزیابی خوشهبندی گزارش میشود به این معنا نیست که بهترین اطلاعات موجود، مورد استفاده قرار گرفتهاند.[نیازمند منبع]
مقدمات
تعدادی داده n بعدی داریم. Ci را خوشه ای از این دادهها و Xj را یک بردار ویژگی n بعدی که به خوشه Ci نسبت داده شده است، در نظر میگیریم.
، مرکز C i و T i، اندازه خوشهی i است . ریشهی q، از گشتاور مرتبه q، در دادههای خوشه i، حول میانگین میباشد. اگر باشد، آنگاه میانگین فاصلهی بین بردارهای ویژگی در خوشه i و مرکز خوشه i است. معمولا مقدار p برابر ۲ است و یعنی فاصله در اینجا بر اساس تابع فاصله اقلیدسی عمل میکند. در موارد متنوع و داده های ابعاد بالاتر، جایی که ممکن است فاصله اقلیدسی بهترین معیار برای تشخیص خوشهها نباشد، میتوان از معیارهای فاصله دیگری استفاده کرد. توجه به این نکته مهم است که برای نتایج معنادار، این معیار فاصله باید با معیار استفاده شده در خود روش خوشه بندی مطابقت داشته باشد.
معیار اندازه گیری فاصله بین خوشه و است.
- ، k امین عنصر است و n عنصر مانند آن در A وجود دارند، زیرا A یک مرکز خوشهی n بعدی است.
در اینجا k ویژگیهای دادهها را نشان میدهد و وقتی p برابر 2 باشد، اساساً فاصله اقلیدسی بین مراکز خوشههای i و j را نشان میدهد.
تعریف
Ri,j را معیاری برای ارزیابی خوشه بندی در نظر میگیریم. این معیار بر اساس تعریف باید Mi,j و Si را محاسبه کند که Mi,j فاصله بین خوشه i و j را نشان میدهد و در حالت ایدئال تا حد امکان باید بزرگ باشد، و Si پراکندگی درونی خوشه i را نشان میدهد و تا حد امکان باید کوچک باشد. بنابراین شاخص دیویس بولدین به عنوان نسبت Si و Mi,j طوری تعریف میشود که ویژگی های زیر حفظ شوند:
- .
- .
- وقتی و آنگاه داشته باشیم .
- وقتی و آنگاه داشته باشیم .
با این محدودیتها، هرچه مقدار Ri,j کمتر باشد، جداسازی خوشهها بهتر و «سختی» درون خوشهها بیشتر است.
روشی برای محاسبهی Ri,j که محدودیتهای بالا برقرار باشد داریم:
برای تعریف Di داریم:
اگر N تعداد خوشه ها باشد:
DB شاخص دیویس بولدین نامیده می شود. که هم به داده ها و هم به الگوریتم وابسته است. Di بدترین حالت(بیشترین مقدار Ri,j) را انتخاب می کند یعنی شبیهترین خوشه به خوشه i را در نظر میگیرد. تغییرات زیادی میتواند در این فرمول وجود داشته باشد، مانند استفاده از میانگین شباهت خوشهها، میانگین وزنی و غیره.
توضیح
این شرایط شاخص تعریف شده را به متقارن و غیر منفی بودن، محدود می کند. با توجه به نحوه تعریف شاخص، به عنوان تابعی از نسبت پراکندگی درون خوشه به فاصلهی خوشهها، مقدار کمتر آن به این معنی است که خوشه بندی بهتر انجام شده است. در واقع این شاخص شباهت بین هر خوشه و مشابه ترین خوشهی آن به صورت میانگین است که این میانگین روی همه خوشه ها گرفته شده است، جایی که شباهت به صورت S i در بالا تعریف شده است. این امر این ایده را تأیید می کند که هیچ خوشه ای نباید شبیه به دیگری باشد، و از این رو بهترین خوشه بندی اساساً شاخص دیویس بولدین را به حداقل مقدار می رساند. این شاخص که به این ترتیب تعریف میشود میانگینی است برای همه خوشههای i ، و از این رو یک معیار خوب برای تصمیمگیری اینکه واقعاً چند خوشه در دادهها وجود دارد، نمودار مقدار شاخص و مقدار i (تعداد خوشههایی که روی آنها محاسبه انجام شده است) میباشد. جایی که مقدار شاخص کمترین است، عدد i معیار خوبی برای تعداد خوشهها است که دادهها را میتوان به طور ایدئال طبقهبندی کرد. این مبحث در تعیین مقدار k در الگوریتم k میانگین کاربرد دارد، جایی که مقدار k از قبل مشخص نیست.
پیاده سازی ها
جعبه ابزار SOM شامل پیاده سازی متلب است. [۲] یک پیادهسازی متلب نیز از طریق جعبه ابزار آمار و یادگیری ماشین متلب با استفاده از دستور "evalcluster" در دسترس است. [۳]
یک پیاده سازی جاوا در ELKI یافت شده است و می توان آن را با بسیاری از شاخص های کیفیت خوشه بندی دیگر مقایسه کرد.
مقالات مرتبط
لینکهای خارجی
یادداشتها و منابع