Коефіцієнт локального відхилення

Коефіцієнт локального видхилення (КЛВ, англ. local outlier factor) — це алгоритм для виявлення аномалій. Він був запропонований Маркусом М. Бройнігом, Гансом-Пітером Крігелем[en], Раймондом Т. Нґом і Йоргом Сандером у 2000 році для пошуку аномальних точок даних шляхом вимірювання локального відхилення даної точки даних по відношенню до сусідніх точок[1].

КЛВ використовує деякі поняття з алгоритмів DBSCAN і OPTICS, наприклад поняття «відстань до ядра» і «відстань доступності», які використовуються для оцінки локальної щільності[2].

Основна ідея

Основна ідея КЛВ: порівняння локальної щільності точки з щільністю її сусідів. Точка А має набагато меншу щільність, ніж її сусіди.

Коефіцієнт локального відхилення базується на концепції локальної щільності, де локальність визначається k найближчими сусідами, відстань до яких використовується для оцінки щільності. Порівнюючи локальну щільність об'єкта з локальною щільністю його сусідів, можна ідентифікувати області з подібною щільністю та точки, які мають значно нижчу щільність, ніж їхні сусіди. Такі точки вважаються викидами.

Локальна щільність оцінюється за допомогою типової відстані, на якій можна «дотягнутися» до точки від її сусідів. Визначення «відстані досяжності», що використовується в КЛВ, є додатковим заходом для отримання більш стабільних результатів у кластерах. «Відстань досяжності», яку використовує КЛВ, має деякі нюанси, які часто виявляються спотвореними у вторинних джерелах, наприклад, у підручнику Етема Алпайдіна[3].

Формальне визначення

Нехай k-distance(A) визначається як відстань об'єкта A до k-го найближчого сусіда. Зауважте, що множина k найближчих сусідів включає всі об'єкти на цій відстані, яких у випадку «рівності» можуть бути більше, ніж k об'єктів. Позначимо множину k найближчих сусідів як Nk(A).

Ілюстрація відстані досяжності. Точки B і C мають однакову відстань досяжності (k=3), тоді як D не є k найближчим сусідом.

Ця відстань використовується для визначення того, що називається відстанню досяжності (reachability distance):

Тобто, відстань досяжності об'єкта A від B є справжньою відстанню двох об'єктів, і є, щонайменше, k-відстанню від B. Об'єкти, які належать до k найближчих сусідів B («ядро» B, див. кластерний аналіз DBSCAN), вважаються однаково віддаленими. Причиною цього є зменшення статистичних флуктуацій між усіма точками A поблизу B, де збільшення значення k збільшує ефект згладжування[1]. Зауважте, що це не відстань у математичному визначенні, оскільки вона не є симетричною. (Хоча завжди використовувати k-distance(A) є поширеною помилкою[4], це дає дещо інший метод, — спрощений-КЛВ[4]).

Локальна щільність досяжності об'єкта A визначається за допомогою

,

яка є оберненою до середньої відстані досяжності об'єкта А від його сусідів. Зауважте, що це не середня досяжність сусідів з A (яка за визначенням була б k-distance(A)), а відстань, на якій точка A може бути «досяжною» від своїх сусідів. У випадку дублювання точок, це значення може стати нескінченністю.

Потім локальна щільність досяжності порівнюється з щільністю сусідів, які використовують

це середня локальна щільність досяжності сусідів, поділена на власну локальну щільність досяжності об'єкта. Значення, що дорівнює приблизно 1 вказує на те, що об'єкт можна порівняти зі своїми сусідами (і, таким чином, не є викидом). Значення нижче 1 вказує на більш щільну область (що вказує на нормальну точку), тоді як значення, значно більші за 1, вказують на викиди.

LOF(k) ~ 1 означає: Така ж щільність, як у сусідів,

LOF(k) < 1 означає: Вища щільність, ніж у сусідів (нормально точка),

LOF(k) > 1 означає: Нижча щільність, ніж у сусідів (викид).

Переваги

Значення КЛВ, візуалізовані за допомогою ELKI[en]. Хоча верхній правий кластер має щільність, порівнянну з викидами поблизу нижнього лівого кластера, викиди знаходяться правильно.

Завдяки локальному підходу КЛВ може ідентифікувати викиди в наборі даних, які не були б викидами в іншій ділянці набору даних. Наприклад, точка на «малій» відстані до дуже щільного кластера є викидом, тоді як точка в розрідженому кластері може демонструвати подібні відстані до своїх сусідів.

Хоча геометрична інтуїція КЛВ застосовна лише до векторних просторів низької розмірності, алгоритм можна застосовувати в будь-якому контексті, де можна визначити функцію неподібності. Експериментально було показано, що він дуже добре працює у багатьох застосунках, часто перевершуючи конкурентів, наприклад, у виявленні вторгнень у мережу[5] та на оброблених даних еталонного тесту класифікації[6].

Сімейство методів КЛВ можна легко узагальнити, а потім застосувати до різних інших задач, таких як виявлення викидів у географічних даних, відеопотоках або мережах авторства[4].

Переваги

Отримані значення є частками, і їх важко інтерпретувати. Значення 1 або навіть менше вказує на явне нормальне значення, але немає чіткого правила, коли точка є викидом. В одному наборі даних значення 1,1 уже може бути викидом, в іншому наборі даних і параметризації (із сильними локальними коливаннями) значення 2 все ще може бути викидом. Ці відмінності також можуть виникати всередині набору даних через локальність методу. Існують розширення КЛВ, які намагаються покращити КЛВ у таких аспектах:

  • Feature Bagging for Outlier Detection[7] запускає КЛВ на кількох проекціях і поєднує результати для покращення якості виявлення для багатовимірних даних. Це перший підхід ансамблевого навчання до виявлення викидів, інші варіанти див[8].
  • Local Outlier Probability (LoOP)[9] — це метод похідний від КЛВ, але з використанням недорогої локальної статистики, щоб бути менш чутливим до вибору параметра k . Також, отримані значення масштабуються до діапазону значень [0:1] .
  • Interpreting and Unifying Outlier Scores[10] пропонує нормалізацію показників КЛВ до інтервалу [0:1] за допомогою статистичного масштабування для підвищення зручності використання, і цей підхід можна розглядати, як вдосконалену версію ідей LoOP.
  • У статті On Evaluation of Outlier Rankings and Outlier Scores[11] пропонуються методи вимірювання подібності та різноманітності методів для побудови вдосконалених ансамблів виявлення викидів з використанням варіантів КЛВ та інших алгоритмів і вдосконалення підходу Feature Bagging, описаного вище.
  • У статті Local outlier detection reconsidered: a generalized view on locality with applications to spatial, video, and network outlier detection[4] обговорюється загальна схема в різних методах виявлення локальних викидів (включаючи, наприклад, КЛВ, спрощену версію КЛВ і LoOP), що дозволяє абстрагуватися та виокремити загальну структуру. Ця структура потім застосовується, наприклад, для виявлення викидів у географічних даних, відеопотоках і мережах авторства.

Примітки

  1. а б Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers (PDF). Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. с. 93—104. doi:10.1145/335191.335388. ISBN 1-58113-217-4. 
  2. Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. R. (1999). OPTICS-OF: Identifying Local Outliers. Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Т. 1704. с. 262. doi:10.1007/978-3-540-48247-5_28. ISBN 978-3-540-66490-1. 
  3. Alpaydin, Ethem (2020). Introduction to machine learning (вид. Fourth). Cambridge, Massachusetts. ISBN 978-0-262-04379-3. OCLC 1108782604. 
  4. а б в г Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection. Data Mining and Knowledge Discovery. 28: 190—237. doi:10.1007/s10618-012-0300-z. 
  5. Lazarevic, A.; Ozgur, A.; Ertoz, L.; Srivastava, J.; Kumar, V. (2003). A comparative study of anomaly detection schemes in network intrusion detection (PDF). Proc. 3rd SIAM International Conference on Data Mining: 25—36. Архів оригіналу (PDF) за 17 липня 2013. Процитовано 14 травня 2010. 
  6. Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study. Data Mining and Knowledge Discovery. 30 (4): 891—927. doi:10.1007/s10618-015-0444-8. ISSN 1384-5810. 
  7. Lazarevic, A.; Kumar, V. (2005). Feature bagging for outlier detection. Proc. 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining: 157—166. doi:10.1145/1081870.1081891. ISBN 159593135X. 
  8. Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). Ensembles for unsupervised outlier detection. ACM SIGKDD Explorations Newsletter. 15: 11—22. doi:10.1145/2594473.2594476. 
  9. Kriegel, H.-P.; Kröger, P.; Schubert, E.; Zimek, A. (2009). LoOP: Local Outlier Probabilities (PDF). Proceedings of the 18th ACM Conference on Information and Knowledge Management. CIKM '09. с. 1649—1652. doi:10.1145/1645953.1646195. ISBN 978-1-60558-512-3. 
  10. Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2011). Interpreting and Unifying Outlier Scores. Proceedings of the 2011 SIAM International Conference on Data Mining. с. 13—24. CiteSeerX 10.1.1.232.2719. doi:10.1137/1.9781611972818.2. ISBN 978-0-89871-992-5. 
  11. Schubert, E.; Wojdanowski, R.; Zimek, A.; Kriegel, H. P. (2012). On Evaluation of Outlier Rankings and Outlier Scores. Proceedings of the 2012 SIAM International Conference on Data Mining. с. 1047—1058. CiteSeerX 10.1.1.300.7205. doi:10.1137/1.9781611972825.90. ISBN 978-1-61197-232-0. 

Read other articles:

Kusuriya no HitorigotoGambar sampul novel ringan volume pertama薬屋のひとりごと(Kusuriya no Hitorigoto)GenreDramaMisteriRomantis[1] Seri novelPengarangNatsu HyūgaPenerbitShōsetsuka ni NarōTerbit27 Oktober 2011 – sekarang NovelPengarangNatsu HyūgaIlustratorMegumi MatsudaPenerbitShufunotomoImprintRay BooksDemografiWanitaTerbit26 September 2012 Novel ringanPengarangNatsu HyūgaIlustratorTouko ShinoPenerbitShufunotomoPenerbit bahasa InggrisNA J-Novel ClubImprintHero BunkoDem...

 

Plaza de Castilla Stazione dellametropolitana di Madrid GestoreMetro de Madrid Inaugurazione1961 StatoIn uso Linea LocalizzazionePlaza de Castilla TipologiaStazione sotterranea Interscambio 5, 27, 42, 49, 66, 67, 70, 80, 107, 124, 129, 134, 135, 147, 149, 173, 174, 176, 178, SE704 151, 152A, 152C, 153, 154A, 154C, 155, 155B, 156, 157, 157C, 159, 161, 166, 171, 181, 182, 183, 184, 185, 190A, 190B, 191, 193, 194, 195, 196, 197, 199, 712, 713, 714, 716, 717, 721, 722, 724, 725, 726, 876 N23, N24...

 

16th-century samurai; assassin of Oda Nobunaga In this Japanese name, the surname is Akechi.Akechi Mitsuhide明智 光秀Edo period painting of Akechi Mitsuhide.Lord of Kameyama CastleIn office1578–1582Succeeded byToyotomi HidekatsuLord of Sakamoto CastleIn office1571–1582Succeeded byNiwa Nagahide Personal detailsBorn10 March 1528Tara Castle, Mino Province, JapanDied2 July 1582(1582-07-02) (aged 54)Fushimi-ku, Kyoto, JapanSpouseTsumaki HirokoChildrenAkechi MitsuyoshiAkechi Tamaat lea...

Barcelona's operahuis Het Orquestra Simfónica de Barcelona i Nacional de Catalunya ofwel Barcelona Symphony Orchestra/National Orchestra of Catalonia is opgericht in 1944, als het overheidsorkest van de stad. Onder leiding van componist-dirigent Eduard Toldrà werd het symfonieorkest geïntegreerd in het culturele leven van de stad. Het orkest promoot klassieke muziek in de regio en legt daarbij ook een accent bij muziek van Spaanse en Catalaanse componisten. Chef-dirigenten Eduard Toldrà (...

 

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (يوليو 2019) روجر بومان   معلومات شخصية الميلاد 18 أغسطس 1927  أمستردام  الوفاة 21 يوليو 1997 (69 سنة)   لوس أنجلوس  مواطنة الولايات المتحدة  الحياة العملية المدرسة...

 

Vilsted Parochie van Denemarken Situering Bisdom Bisdom Viborg Gemeente Vesthimmerlands Coördinaten 56°54'14,000NB, 9°17'12,001OL Algemeen Inwoners (2004) 455 Leden Volkskerk (2004) 430 Overig Kerken Vilsted Kirke Proosdij Vesthimmerlands Provsti Pastoraat Vilsted-Vindblæs Foto's Portaal    Denemarken Vilsted is een parochie van de Deense Volkskerk in de Deense gemeente Vesthimmerlands. De parochie maakt deel uit van het bisdom Viborg en telt 430 kerkleden op een bevolking van 4...

  Barnadesia dombeyana Barnadesia dombeyana en la Cordillera Blanca, Perú.TaxonomíaReino: PlantaeFilo: TracheophytaClase: MagnoliopsidaOrden: AsteralesFamilia: AsteraceaeSubfamilia: BarnadesioideaeGénero: BarnadesiaEspecie: B. dombeyanaLess.[editar datos en Wikidata] Barnadesia dombeyana es una especie de planta con flor en la familia de las asteráceas; endémica de Perú donde se distribuye por Áncash, Cajamarca, Huánuco, La Libertad,[1]​ Lima y Pasco.[2]​ Ec...

 

Artikel ini memiliki beberapa masalah. Tolong bantu memperbaikinya atau diskusikan masalah-masalah ini di halaman pembicaraannya. (Pelajari bagaimana dan kapan saat yang tepat untuk menghapus templat pesan ini) Artikel biografi ini ditulis menyerupai resume atau daftar riwayat hidup (Curriculum Vitae). Tolong bantu perbaiki agar netral dan ensiklopedis. Artikel ini membutuhkan rujukan tambahan agar kualitasnya dapat dipastikan. Mohon bantu kami mengembangkan artikel ini dengan cara menambahka...

 

OrpeaJenisSociété anonyme (Euronext: ORP)IndustriRumah pensiunan dan klinik perawatanDidirikan1989KantorpusatPuteauxTokohkunciYves Le Masne, CEOKaryawan65,000Situs webwww.orpea.com Orpea merupakan kelompok yang aktif dalam bidang kesehatan lansia.[1] Dia menjalankan rantai panti jompo dan klinik perawatan. Grup ini didirikan pada tahun 1989 oleh Jean-Claude Marian.[2] Catatan kaki ^ (Prancis)Maisons de retraite: Orpea s'implante au Portugal et au Brésil ^ (Prancis)ORPE...

Early 17th century Ming Dynasty official In this Chinese name, the family name is Zuo. Zuo GuangdouDuke of Zhongyi左光斗Left Minister of the CensorateIn office1624-1625MonarchTianqi EmperorLeft Minister of the Court of Judicature and RevisionIn office1623-1624MonarchTianqi EmperorCensor of the CensorateIn office1607-1623MonarchsTaichang Emperor and Tianqi Emperor Personal detailsBorn(1575-10-12)12 October 1575Died26 August 1625(1625-08-26) (aged 49) Zuo GuangdouChinese左光斗Transcr...

 

2015 American documentary Hot Girls WantedFilm posterDirected by Jill Bauer Ronna Gradus Written byBrittany Huckabee[1]Produced by Rashida Jones Jill Bauer Ronna Gradus Brittany Huckabee CinematographyRonna GradusEdited byBrittany HuckabeeMusic byDaniel AhearnProductioncompanyTwo to Tangle ProductionsDistributed byNetflixRelease dates January 24, 2015 (2015-01-24) (Sundance) May 29, 2015 (2015-05-29) (Netflix) Running time84 minutesCountryUnited S...

 

2006年4月28日,金高哲一家在逃亡到大韓民國後得到美國總統小布什(左二)的接見。圖為金高哲之女金韓美(左一)及被朝鮮民主主義人民共和國綁架的日本人橫田惠(桌上照片中女性)母親橫田早紀江(右二)與胞弟(右一)。 日本駐瀋陽總領事館事件(日语:瀋陽総領事館北朝鮮人亡命者駆け込み事件)是2002年5月8日發生在中華人民共和國日本驻沈阳总领事馆的一起外...

Historical period in the Southern United States from 1815 to 1861 Antebellum era redirects here. For other uses, see Antebellum (disambiguation). Antebellum Period in the Southern United States1815–1861There were just over 3.2 million slaves in the U.S. in 1850, about 14% of the total population.[1]LocationSouthern United StatesIncludingEra of Good Feelings Jacksonian Era Civil War EraPresident(s)James Madison James Monroe John Quincy Adams Andrew Jackson Martin Van Buren William He...

 

Indian film director The topic of this article may not meet Wikipedia's notability guideline for biographies. Please help to demonstrate the notability of the topic by citing reliable secondary sources that are independent of the topic and provide significant coverage of it beyond a mere trivial mention. If notability cannot be shown, the article is likely to be merged, redirected, or deleted.Find sources: Hari Viswanath – news · newspapers · books · scholar...

 

The following is a list of characters who appear in Yudetamago's manga and anime series Ultimate Muscle/Kinnikuman Nisei. Prologue of a Legend~Hercules Factory Arc Mantaro Muscle Mantaro Kinniku (キン肉万太郎 Kinniku Mantarō) / Mantaro Kinnikuman/Mantaro Muscle (Kid Muscle) Voiced by: Masaya Onosaka/Marc Thompson (US). Homeland: Planet Kinniku, Age: 14 (Choujin Olympics: 15, Ultimate Tag: 16), Height: 176cm/5'9, Weight: 83kg/189lbs., Chojin Power: 930,000. The main character of the sto...

For other uses, see Bag. Place in Central Hungary, HungaryBag FlagCoat of armsBagLocation of Bag in HungaryCoordinates: 47°38′09″N 19°29′01″E / 47.6357°N 19.4837°E / 47.6357; 19.4837CountryHungaryRegionCentral HungaryCountyPestSubregionAszódiRankTownArea[1] • Total23.55 km2 (9.09 sq mi)Population (2010)[2] • Total3,974 • Density170/km2 (440/sq mi)Time zoneUTC+1 (CET) • ...

 

511 Salemba Carolus Halte TransjakartaHalte Salemba Carolus, 2022LetakKotaJakarta PusatDesa/kelurahanPaseban, SenenKodepos10440AlamatJalan Salemba RayaKoordinat6°11′48″S 106°51′04″E / 6.1968°S 106.8510°E / -6.1968; 106.8510Koordinat: 6°11′48″S 106°51′04″E / 6.1968°S 106.8510°E / -6.1968; 106.8510Desain HalteStruktur BRT, median jalan bebas 1 tengah Pintu masukMelalui jembatan penyeberangan di sebelah RS St. CarolusGe...

 

Pontypridd ChronicleTypeweekly newspaperCityPontypridd OCLC number751659287 The Pontypridd Chronicle (published 1881–1905) was a Liberal weekly English-language newspaper, distributed in Pontypridd and the Taff and Rhondda Valleys. It contained local and general news and information, and mainly catered to the needs of the working-class people of the district.[1] References ^ The Pontypridd Chronicle at Welsh Newspapers Online, National Library of Wales This United Kingdom newsp...

本稿では、モルドバ共和国の主要民族の民族性と母語について述べる。 モルドバ共和国の民族性については、モルドバ人がルーマニア人のなかの一グループなのか、ルーマニア人とは異なる民族なのかということが問題としてあがっている。また、ルーマニアとモルドバ共和国の言語の共通性については広く認識されているものの、特定の政治的背景に基づき「モルド...

 

1995 single by KyussGardeniaSingle by Kyussfrom the album Welcome to Sky Valley B-sideUn SandpiperConan TroutmanReleased1995Recorded1993, Sound City, Van Nuys, CaliforniaGenreStoner metal, Stoner rock[1]Length6:53LabelElektraSongwriter(s)Brant BjorkProducer(s)Chris GossKyussKyuss singles chronology Demon Cleaner (1994) Gardenia (1995) One Inch Man (1995) Gardenia is a song by American rock band Kyuss. It was released in 1995 as the second single from their third studio album, Welcome ...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!