در نظریه احتمالات و نظریه اطلاعات، اطلاعات متقابل تنظیم شده، ممکن است تغییر نسخه ای از اطلاعات متقابل برای مقایسه خوشهبندیها استفاده شود.[۱] اثر توافق را صرفاً به دلیل شانس بین خوشهبندیها تصحیح میکند، مشابه روشی که شاخص رند تنظیمشده، شاخص رند را تصحیح میکند. ارتباط نزدیکی با تنوع اطلاعات دارد:[۲] هنگامی که تنظیم مشابهی برای شاخص VI انجام میشود، معادل AMI میشود.[۱] با این حال، اندازهگیری تنظیم شده دیگر متریک نیست.[۳]
اطلاعات متقابل دو بخش
با توجه به مجموعه S از N عنصر S = {s1,s2... ,sN}، دو بخش از S را در نظر بگیرید، برای مثال U = {u1,u2... ,uR} با R خوشه،
و V = {v1,v2... ,vC} با C خوشه. در اینجا فرض میشود که بخشها به اصطلاح خوشههای سخت هستند. بخشها به صورت جفتی جدا هستند:
به ازای همه :
اطلاعات متقابل همپوشانی خوشه بین U و V را میتوان در قالب یک جدول احتمالی RxC خلاصه کرد. که در آن تعداد اشیاء مشترک در خوشههای Ui و Vj را نشان میدهد. به این معنا که،
فرض کنید یک شی بهطور تصادفی از S انتخاب شدهاست. احتمال اینکه جسم به خوشه Ui بیفتد این است:
آنتروپی مرتبط با بخشبندی U عبارت است از:
که در آن PV(j) = |Vj|/N. اطلاعات متقابل بین دو بخش:
که در آن PUV(i,j) نشان دهنده این احتمال است که یک نقطه به خوشه Ui در U و خوشه Vj در V تعلق دارد:
MI یک کمیت غیر منفی است که با آنتروپیهای H(U) و H(V) محدود شدهاست، اطلاعات به اشتراک گذاشته شده توسط دو خوشه بندی را کمی میکند و بنابراین میتواند به عنوان معیار تشابه خوشه بندی استفاده شود.
تعدیل برای شانس
مانند شاخص رند، مقدار پایه اطلاعات متقابل بین دو خوشهبندی تصادفی مقدار ثابتی به خود نمیگیرد و زمانی که دو پارتیشن تعداد خوشههای بیشتری داشته باشند (با تعداد ثابتی از عناصر مجموعه N) تمایل به بزرگتر شدن دارد. با اتخاذ یک مدل فوق هندسی تصادفی، میتوان نشان داد که اطلاعات متقابل مورد انتظار بین دو خوشه تصادفی عبارتند از:
هنگامی که دو پارتیشن یکسان هستند، AMI مقدار ۱ و زمانی که MI بین دو پارتیشن برابر با مقدار مورد انتظار بنابر شانس باشد، ۰ میگیرد.
منابع
↑ ۱٫۰۱٫۱Vinh, N. X.; Epps, J.; Bailey, J. (2009). "Information theoretic measures for clusterings comparison". Proceedings of the 26th Annual International Conference on Machine Learning - ICML '09. p. 1. doi:10.1145/1553374.1553511. ISBN978-1-60558-516-1.