Колаборативна фільтрація

На даній анімації показаний приклад прогнозування оцінки користувача за допомогою колаборативної фільтрації. У даній системі користувачі залишають оцінки різних предметів (наприклад відео, книжок, ігор). Після цього система прогнозує оцінки користувача для предметів, які він ще не оцінив. Прогнози будуються на основі оцінок користувачів, які мають однакові оцінки з поточним користувачем для інших предметів. В даному випадку система зробила прогноз про те, що поточному користувачеві відео, яке оцінили інші користувачі, не сподобається.

Колаборативна фільтрація, спільна фільтрація (англ. collaborative filtering) (КФ) — метод, який використовується деякими рекомендаційними системами. Колаборативна фільтрація має два значення: вузьке і більш загальне. В цілому, колаборативна фільтрація — процес фільтрації інформації або зразків за допомогою методів за участю співробітництва між декількома агентами, точками зору, джерелами даних і т. д. Застосування колаборативної фільтрації, як правило, пов'язане з дуже великими наборами даних. Колаборативні методи фільтрації були застосовані до різних видів даних, зокрема до таких як зондування та моніторинг даних, які виникають при розвідці корисних копалин на великих площах; до фінансових даних, таких як установи фінансових послуг, які об'єднують багато фінансових джерел; або в електронній торгівлі та вебдодатках, що зосереджуються на даних користувача, і т. д. Решта цієї дискусії зосереджена на колаборативній фільтрації даних, призначених для користувача, хоча деякі з методів та підходів можуть застосовуватися так само і у багатьох інших випадках.

У більш новому, вужчому значенні колаборативна фільтрація — це один з методів побудови прогнозу в рекомендаційних системах, який використовує відомі уподобання (оцінки) групи користувачів для прогнозування невідомих уподобань іншого користувача.[1] Основне припущення колаборативної фільтрації полягає в наступному: ті, хто однаково оцінювали будь-які предмети в минулому, схильні давати схожі оцінки інших предметів і в майбутньому. [1] Наприклад, за допомогою колаборативної фільтрації музичний додаток здатний прогнозувати, яка музика сподобається користувачеві, маючи неповний список його уподобань (симпатій та антипатій).[2] Прогнози складаються індивідуально для кожного користувача, хоча інформація, що використовується, зібрана від багатьох учасників. Це відрізняє колаборативну фільтрацію від більш простого підходу, дає усереднену оцінку для кожного об'єкта інтересу, наприклад того, що базується на кількості поданих за нього голосів. Дослідження в даній області активно ведуться і в наш час, що зокрема обумовлюється наявністю невирішених проблем у методі колаборатівної фільтрації.

Опис

У століття інформаційного вибуху такі методи створення персоналізованих рекомендацій, як колаборативна фільтрація, дуже корисні, оскільки кількість об'єктів навіть в одній категорії (такій, як фільми, музика, книги, новини, вебсайти) стала настільки великою, що окрема людина не здатна переглянути їх всі, щоб вибрати відповідні.

Системи колаборативної фільтрації зазвичай застосовують двоступеневу схему [1]:

  1. Знаходять тих, хто поділяє оціночні судження «активного» (прогнозованого) користувача.
  2. Використовують оцінки людей,що мислять подібно, знайдених на першому кроці, для обчислення прогнозу.

Алгоритм, описаний вище, побудований відносно користувачів системи.

Існує і альтернативний алгоритм, винайдений Amazon [3], побудований відносно предметів (продуктів) у системі. Цей алгоритм включає в собі наступні кроки:

  1. Будуємо матрицю, яка визначає відносини між парами предметів, для знаходження подібних предметів.
  2. Використовуючи побудовану матрицю і інформацію про користувача, будуємо прогнози його оцінок.

Для прикладу можна подивитися сімейство алгоритмів Slope One(інші мови).

Також існує інша форма колаборативної фільтрації, що ґрунтується на прихованому спостереженні звичайної поведінки користувача (на протилежність явній, яка збирає оцінки). У цих системах ви спостерігаєте, як вчинив даний користувач, і як вчинили інші (яку музику вони слухали, які відео подивилися, які композиції придбали), і використовуєте отримані дані, щоб передбачити поведінку користувача в майбутньому, або передбачити, як користувач бажав би вчинити за наявності певної можливості. Ці передбачення повинні бути складені згідно з бізнес-логікою, бо марно пропонувати споживачеві придбати музичний файл, який у нього вже є.

Типи колаборативної фільтрації

Типи колаборативної фільтрації

Заснований на пам'яті

Цей підхід використовує дані про рейтинг користувача для розрахунку схожості між користувачами або предметами. Він використовується для вироблення рекомендацій. Це був початковий підхід, що використовувався в багатьох торгових системах. Він ефективний і простий у реалізації. Типовими прикладами такого підходу є CF і засновані на виробі/користувачеві топ-N рекомендації. Наприклад, у підходах, заснованих на користувачеві, вартість оцінки, яку користувач u дає виробу «i» розрахована як сукупність схожих оцінок виробу іншими користувачами:

де «U» позначає сукупність N «найкращих» користувачів, які найбільш близькі до користувача u, що оцінює виріб «i». Деякі приклади функцій агрегації:

де k - нормуючий множник, визначається як і є середня оцінка користувача u для всіх виробів, оцінених ним.

Заснований на сусідстві

Алгоритм, заснований на сусідстві, обчислює подібність двох користувачів або виробів, виробляє прогноз для користувача, приймаючи середнє зважене всіх оцінок. Обчислення схожості між виробами або користувачами є важливою частиною цього підходу. Багаторазові заходи, такі як кореляції Пірсона і схожість, заснована на скалярному добутку, використовується для цього.

Схожість двох користувачів X, Y через кореляцію Пірсона визначається як

де Ixy - це набір елементів, оцінених як користувачем х, так і користувачем у .

Підхід, заснований на скалярному добутку визначає скалярний добуток між двома користувачами х і у, як:

Заснований на користувачеві алгоритм топ-Н рекомендації використовує засновану на подібності векторну модель для визначення K — більшості подібних користувачів до активного користувача. Після того, як знайдені найбільш схожі користувачі, їх відповідні матриці агрегуються для визначення рекомендованого набору елементів. Популярний метод, знаходження схожих користувачів — просторово чутливе гешування(інші мови), яке реалізує механізм пошуку найближчих сусідів у лінійному часі.

Переваги цього підходу включають в себе: очікуваність результатів, що є важливим аспектом рекомендаційних систем; просте створення і використання; просте полегшення нових даних; добра масштабованість зі співавторами рейтингових пунктів.

Є також кілька недоліків при такому підході. Його продуктивність знижується, коли дані становляться розрідженими, що трапляється часто з виробами, пов'язаними з мережею. Це ускладнює масштабованість такого підходу і створює проблеми з великими наборами даних. Хоча він може ефективно обробляти нових користувачів, тому що спирається на структури даних, додавання нових елементів стає більш складним, що, як правило, спирається уявленням про конкретну складову векторного простору. Додавання нових елементів вимагає включення нового пункту і повторного включення всіх елементів у структурі.

Заснований на моделі

Даний підхід надає рекомендації, вимірюючи параметри статистичних моделей для оцінок користувачів, побудованих за допомогою таких методів як, метод баєсовских мереж, кластеризації, латентно-семантичної моделі , такі як сингулярний розклад, ймовірнісний прихований семантичний аналіз(інші мови), прихований розподіл Діріхле(інші мови) і марковський процес вирішування на основі моделей. [4] Моделі розробляються з використанням інтелектуального аналізу даних, алгоритмів машинного навчання, щоб знайти закономірності на основі навчальних даних. Число параметрів в моделі може бути зменшено в залежності від типу за допомогою методу головних компонент.

Цей підхід є більш комплексним і дає більш точні прогнози, оскільки допомагає розкрити латентні фактори, що пояснюють спостережувані оцінки.[5]

Даний підхід має ряд переваг. Він обробляє розріджені матриці краще, ніж підхід заснований на сусідстві, що в свою чергу допомагає з масштабністю великих наборів даних.

Недоліки цього підходу полягають в «дорогому» створенні моделі[6]. Необхідний компроміс між точністю і розміром моделі, тому що можна втратити корисну інформацію у зв'язку із скороченням моделей.

Гібридний підхід

Даний підхід об'єднує в собі підхід заснований на сусідстві і заснований на моделі. Гібридний підхід є найпоширенішим при розробці рекомендаційних систем для комерційних сайтів, так як він допомагає подолати обмеження початкового оригінального підходу (заснованого на сусідстві) і поліпшити якість прогнозів. Цей підхід також дозволяє подолати проблему розрідженості даних [⇨] і втрати інформації. Однак даний підхід складний і дорогий у реалізації та застосуванні. [7]

Проблеми

Розрідженість даних

Як правило, більшість комерційних рекомендаційних систем заснована на великій кількості даних (товарів), в той час як більшість користувачів не ставить оцінки товарам. В результаті цього матриця «предмет-користувач» виходить дуже великою і розрідженою, що представляє проблеми при обчисленні рекомендацій. Ця проблема особливо гостра для нових, щойно створених систем. [7] Також розрідженість даних підсилює проблему холодного старту.

Масштабованість

Зі збільшенням кількості користувачів в системі, з'являється проблема масштабованості. Наприклад, маючи 10 мільйонів покупців і мільйон предметів , алгоритм колаборативної фільтрації зі складністю рівній вже занадто складний для розрахунків. Також, багато систем повинні моментально реагувати на онлайн запити від всіх користувачів, незалежно від історії їх покупок і оцінок, що вимагає ще більшої масштабованості.

Проблема холодного старту

Нові предмети або користувачі представляють велику проблему для рекомендаційних систем. Частково проблему допомагає вирішити підхід, заснований на аналізі вмісту, так як він покладається не на оцінки, а на атрибути, що допомагає включати нові предмети в рекомендації для користувачів. Однак проблему з наданням рекомендації для нового користувача вирішити складніше. [7]

Синонімія

Синонімією називається тенденція схожих і однакових предметів мати різні імена. Більшість рекомендаційних систем не здатні виявити ці приховані зв'язки і тому відносяться до цих предметів як до різних. Наприклад, «фільми для дітей» та «дитячий фільм» відносяться до одного жанру, але система сприймає їх як різні. [4]

Шахрайство

У рекомендаційних системах, де кожен може ставити оцінки, люди можуть давати позитивні оцінки своїм предметам і погані своїм конкурентам. Також, рекомендаційні системи стали сильно впливати на продажі та прибуток, з тих пір як отримали широке застосування в комерційних сайтах. Це призводить до того, що недобросовісні постачальники намагаються шахрайським чином піднімати рейтинг своїх продуктів і знижувати рейтинг свої конкурентів. [7]

Різноманітність

Колаборативна фільтрація спочатку визнана збільшити різноманітність, щоб дозволяти відкривати користувачам нові продукти з незліченної множини. Однак деякі алгоритми, зокрема основні на продажах і рейтингах, створюють дуже складні умови для просування нових і маловідомих продуктів, так як їх заміщають популярні продукти, які давно перебувають на ринку. Це в свою чергу тільки збільшує ефект «багаті стають ще багатшими» і приводить до меншої різноманітності. [8]

Білі ворони

До «білих ворон» відносяться користувачі, чия думка постійно не збігається з більшістю інших. Через унікальність смаку їм неможливо щось рекомендувати. Однак, такі люди мають проблеми з отриманням рекомендацій і в реальному житті, тому пошуки вирішення даної проблеми в даний час не ведуться. [4]

Застосування в соціальних мережах

Колаборативна фільтрація широко використовується в комерційних сервісах і соціальних мережах. Перший сценарій використання — це створення рекомендації щодо цікавої і популярної інформації на основі врахування «голосів» спільноти. Такі сервіси, як Reddit, Digg або DiCASTA — це типові приклади систем, що використовують алгоритми колаборативної фільтрації.

Інша сфера використання полягає у створенні персоналізованих рекомендацій для користувача, на основі його попередньої активності і даних про переваги інших, схожих з ним користувачів. Даний спосіб реалізації можна знайти на таких сайтах, як YouTube, Last.fm і Amazon [3], а також в таких геосоціальних сервісах, як Gvidi[ru] і Foursquare.

Див. також

Примітки

  1. а б в A Survey of Collaborative Filtering Techniques, 2009, с. 1.
  2. An integrated approach to TV Recommendations by {{Не перекладено|TV Genius||en|TV Genius}}. Архів оригіналу за 6 червня 2012. Процитовано 15 квітня 2015.
  3. а б Amazon, 2003.
  4. а б в A Survey of Collaborative Filtering Techniques, 2009, с. 3.
  5. Масштабована і точна колаборативна фільтрація, 2009.
  6. A Survey of Collaborative Filtering Techniques, 2009, с. 3-4.
  7. а б в г Проблеми в рекомендаційних системах, 2010.
  8. Проблема різноманітності, 2009, с. 23.

Література

Read other articles:

American comedian Rosebud BakerBaker in 2011BornRosemary Baker (1985-03-16) March 16, 1985 (age 38)[1][2]Alexandria, Virginia, U.S.Alma materEmerson College (BA)Occupations Comedian actress writer Years active2008–presentSpouse Andy Haynes ​ ​(m. 2020)​RelativesJames Baker (grandfather)Comedy careerMediumStand-upGenresDark comedyblue comedySubjectsDeathAmerican politicsinterpersonal relationshipshuman sexualitysobrietydomesti...

 

此條目剧情、虛構用語或人物介紹过长过细,需清理无关故事主轴的细节、用語和角色介紹。 (2018年5月20日)劇情、用語和人物介紹都只是用於了解故事主軸,輔助讀者了解現實向的內容,而不是像資料庫般將所有出現的內容記下。请协助清理不必要的细节、用語和角色,让情节介绍更为简洁。ACG类條目的故事簡介不宜超过1000全角字。 強襲魔女 《強襲魔女》DVD第一集封面 ス...

 

United States federal law James M. Inhofe National Defense Authorization Act for Fiscal Year 2023Long titleAn Act to authorize appropriations for fiscal year 2023 for military activities of the Department of Defense, for military construction, and for defense activities of the Department of Energy, to prescribe military personnel strengths for such fiscal year, and for other purposes.Acronyms (colloquial)NDAAEnacted bythe 117th United States CongressCitationsPublic lawPub. L.Tooltip Publ...

Fine arts school of the University of Zagreb This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Academy of Fine Arts, University of Zagreb – news · newspapers · books · scholar · JSTOR (December 2014) (Learn how and when to remove this template message) Academy of Fine Arts ZagrebAkademija likovnih umjetnosti u...

 

PIN code PIN code redirects here. For the code used by India Post, see Postal Index Number. A personal identification number sent to its user in a letter. The darkened paper flap prevents the number from being read by holding the unopened envelope to the light. A personal identification number (PIN), or sometimes redundantly a PIN number or PIN code, is a numeric (sometimes alpha-numeric) passcode used in the process of authenticating a user accessing a system. The PIN has been the key to fac...

 

جزء من سلسلة مقالات حولالإسلام العقيدة الإيمان توحيد الله الإيمان بالملائكة الإيمان بالكتب السماوية الإيمان بالرسل والأنبياء الإيمان باليوم الآخر الإيمان بالقضاء والقدر أركان الإسلام شهادة أن لا إله إلا الله وأن محمد رسول الله إقامة الصلاة إيتاء الزكاة صوم رمضان الحج م...

Historic Spanish Catholic mission in St. Augustine, FL, USA 208-foot cross[1] Mission Nombre de Dios is a Catholic mission founded in 1565 in St. Augustine, Florida, on the west side of Matanzas Bay.[2] It is part of the Diocese of St. Augustine and is likely the oldest extant mission in the continental United States. The National Shrine of Our Lady of La Leche, the oldest shrine in that region, is located on the mission grounds. History The mission traces its origins to Septe...

 

بورصة الدار البيضاء Bourse de Casablanca   النوع سوق الأوراق المالية[1]  الدولة المغرب المدينة الدار البيضاء المقر الرئيسي الدار البيضاء[2]  تاريخ التأسيس 7 نوفمبر 1929  المالك صندوق الإيداع والتدبير أهم الشخصيات كمال مقداد (المدير التنفيذي) العملات الدرهم المغربي الش

 

  لمعانٍ أخرى، طالع باول ستيوارت (توضيح). هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (يوليو 2019) باول ستيوارت معلومات شخصية الميلاد 6 يوليو 1959 (64 سنة)  هاروغيت  مواطنة المملكة المتحدة  الحياة العملية الم

يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. فضلاً، ساهم في تطوير هذه المقالة من خلال إضافة مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (ديسمبر 2018) نادي المقاولون العرب موسم 1986–87موسم 1986–1987الدوريالخامسكأس مصرلم يلعب → 1985–86 1987–88 ← موسم 1986–1987 هو المو...

 

De Zwaan van Heist-op-den-Berg Het wapen van Heist-op-den-Berg werd reeds op 23 juli 1846, 16 jaar na de onafhankelijkheid, aan de Belgische gemeente Heist-op-den-Berg toegekend. Blazoenering De zwaan is onlosmakelijk verbonden met de gemeente. De aanvraag aan de nog jonge Belgische regering om dit wapen officieel te mogen gebruiken gebeurde echter niet met behulp van een heraldische vocabulaire. Officieel luidde de aanvraag zo: Een zwaan van witte kleur, gezeten op de kruin van een berg met ...

 

2023 Indian filmAflatoonTheatrical release posterDirected byParitosh PainterWritten byParitosh PainterProduced byRajeev Kumar SahaStarringJohny LeverSiddharth JadhavParitosh PainterCinematographySuresh DeshmaneMusic byKashyap SompuraProductioncompaniesSaha & Sons StudiosIdeas The Entertainment CompanyDistributed byAA FilmsRelease date 21 July 2023 (2023-07-21) CountryIndiaLanguageMarathiBudgetest.₹3.80–4 crore[1][2]Box officeest.₹10.01 crore[3]...

La ropa del siglo XIII ofreció túnicas largas con cinturón de diversos estilos y con capa. El hombre de la derecha lleva un gardcorps, y el otro un sombrero judío. Las mujeres usaban tocados o velos de lino, c. 1250. La indumentaria europea en el siglo XIII en Europa era muy sencilla, tanto para hombres como para mujeres, y bastante uniforme en todo el continente. Las prendas de vestir masculinas y femeninas fueron relativamente similares, y sus cambios se realizaban muy lentame...

 

American football player and coach (1877–1933) Burr ChamberlainPortrait of Chamberlain from The World of New York, September 26, 1898Biographical detailsBorn(1877-08-21)August 21, 1877Dalton, Massachusetts, U.S.DiedNovember 11, 1933(1933-11-11) (aged 56)Bronxville, New York, U.S.Playing career1896–1898Yale Position(s)Center, tackleCoaching career (HC unless noted)1899Stanford1901Virginia (assistant)1903Navy1907Yale (assistant)1923–1925Yale (assistant) Head coaching recordOverall6...

 

Eclipsing binary star system in the constellation of Ursa Major TX Ursae Majoris A light curve for TX Ursae Majoris, plotted from TESS data[1] Observation dataEpoch J2000.0      Equinox J2000.0 Constellation Ursa Major Right ascension 10h 45m 20.504s[2] Declination +45° 33′ 58.71″[2] Apparent magnitude (V) 6.97[3] Characteristics Spectral type B8V + G0III-IV[4] B−V color index −...

I patrimoni dell'umanità di Vanuatu sono i siti dichiarati dall'UNESCO come patrimonio dell'umanità a Vanuatu, che è divenuta parte contraente della Convenzione sul patrimonio dell'umanità il 13 giugno 2002[1]. Al 2022 un solo sito è iscritto nella Lista dei patrimoni dell'umanità: il Dominio del capo Roi Mata, scelto nel 2008 in occasione della trentaduesima sessione del comitato del patrimonio mondiale. Cinque sono invece le candidature per nuove iscrizioni[1]. Indice ...

 

House and estate in Surrey, England Not to be confused with Witley Court, Worcestershire. 51°08′50″N 0°40′49″W / 51.147165°N 0.680255°W / 51.147165; -0.680255 Thursley Lodge gatehouse, at Witley Park. Witley Park, formerly known as Lea Park, is an estate dating from the 19th-century between Godalming and Haslemere, Surrey, England. Its landscaped grounds include three artificial lakes, one of which conceals an underwater conservatory and smoking room. Statu...

 

Bagian dari seri PolitikBentuk dasar dari pemerintahan Struktur kekuatan Konfederasi Federasi Hegemoni Kerajaan Negara kesatuan Sumber kekuatan Demokrasi Langsung Perwakilan Semi lainnya Kerajaan Mutlak Konstitusi Oligarki Aristokrasi Junta militer Kleptokrasi Plutokrasi Stratokrasi Timokrasi Otokrasi Otoritarianisme Despotisme Diktatur (Kediktatoran) Totalitarianisme Republik Parlementer Presidensial Semi presidensial Lainnya Anarki Anokrasi Khilafah Kritarsi Meritokrasi Oklokrasi Parti...

Daftar pemenang Miss Grand InternationalLogo Miss Grand InternationalTanggal pendirian2013Kantor pusatBangkokLokasi ThailandBahasa resmi InggrisPresidenNawat ItsaragrisilSitus webSitus web resmi Berikut ini adalah daftar pemenang pada kontes kecantikan Miss Grand International: Daftar Pemenang Tahun Negara asal Miss Grand International Gelar nasional Lokasi acara Jumlah peserta 2024 TBA TBA TBA Yangoon, Myanmar TBA 2023  Peru Luciana Fuster Miss Grand Peru 2023 Ho Chi Minh, Vietnam ...

 

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Amosulalol – news · newspapers · books · scholar · JSTOR (November 2023) (Learn how and when to remove this template message)Chemical compound AmosulalolClinical dataAHFS/Drugs.comInternational Drug NamesRoutes ofadministrationOralATC codenoneLegal statusLegal ...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!