Алгоритм Apriori

Apriori[1] — алгоритм глибинного аналізу даних щодо частих одиниць у множинах і машинного навчання щодо асоціативних правил, що застосовується переважно до баз даних транзакцій. Алгоритм ідентифікує елементи/одиниці, що часто повторюються у базі, і розширює їх список до все більших множин з дотриманням правила достатньої частотності. Визначені алгоритмом множини частих одиниць можна використати для визначення правил асоціювання, по яких стають помітними загальні тенденції в базі даних.

Це знаходить застосування в таких областях, як аналіз ринкового кошика[en]. Одиницями при цьому є пропоновані товари, а покупка являє собою транзакцію, яка містить куплені предмети (одиниці). Алгоритм при цьому визначає кореляції такого виду:

Якщо хтось купує шампунь і лосьйон для гоління, у 90 % випадків купується також і піна для гоління.

Дані, що надаються до аналізу, складаються з таблиці транзакцій (на рядках), в якій перераховуються будь-які бінарні одиниці (у колонках). Алгоритм Apriori знаходить співвідношення між множинами одиниць, які зустрічаються у великій частині транзакцій. Правила асоціювання, які отримуються в результаті, мають форму ; при цьому і є множинами одиниць, а правило стверджує, що коли у великій частині транзакцій зустрічається множина одиниць , то там часто зустрічається і множина одиниць .

Опис алгоритму

Алгоритм Apriori було запропоновано Агравалом і Срікантом в 1994 році. Apriori застосовується до баз даних транзакцій (наприклад, наборів товарів, куплених клієнтами, або відвідуваності вебсайту). Інші алгоритми розроблені для пошуку асоціативних правил у даних, які не містять транзакцій або не мають відміток часу (наприклад, ДНК-послідовність). Кожна транзакція розглядається як множина елементів. Маючи заданий поріг , алгоритм Apriori ідентифікує множину елементів, які є підмножинами принаймні транзакцій в базі даних.

Апріорі використовує підхід «знизу вгору», за якого список частих підмножин розширюється по одному елементу за раз (крок, відомий як генерування кандидатів); відтак групи кандидатів перевіряються на основі наявних даних. Алгоритм завершує роботу, коли подальших успішних розширень знайти неможливо.

Apriori використовує пошук у ширину та структуру геш-дерева для ефективного підрахунку елементів-кандидатів множини. Він генерує множини елементів-кандидатів довжиною з множин довжиною . Потім він відсікає кандидатів, які є нечастими підмножинами. Відповідно до леми низхідного змикання (англ. downward closure lemma), множина кандидатів містить усі множини елементів довжини , які часто зустрічаються. Після цього він сканує базу даних транзакцій, щоб визначити множини елементів, які часто зустрічаються серед кандидатів.

Псевдокод для алгоритму наведено нижче для бази даних транзакцій і допоміжного порога . Застосовується звичайна нотація теорії множин, хоча слід відзначити, що є мультимножиною.  — це множина кандидатів для рівня . З кожним кроком, як припускається, алгоритм генерує набори кандидатів з великих множин попереднього рівня, дотримуючись леми низхідного закриття. звертається до поля структури даних, яка являє собою множину кандидатів , спочатку вона приймається рівною нулю. Нижче випущено багато деталей, але зазвичай найважливішою частиною реалізації є структура даних, що використовується для зберігання множин кандидатів і підрахунку їх частоти.

Приклади

Приклад 1

Розглянемо таку базу даних, де кожен рядок являє собою транзакцію, а кожна клітина — окремий елемент транзакції:

alpha beta epsilon
alpha beta theta a
alpha beta epsilon a
alpha beta theta b

З цієї бази можна визначити такі асоціативні правила:

  1. 100 % множин, що містять alpha, також містять beta.
  2. 50 % множин, що містять alpha, beta, також містять epsilon.
  3. 50 % множин, що містять alpha, beta, також мають theta.

ми можемо проілюструвати це за допомогою різних прикладів.

Приклад 2

Припустимо, що великий супермаркет відстежує дані про продажі у блоці складського обліку (SKU) для кожного елемента: кожний елемент, наприклад, «масло» або «хліб», визначається числовим значення в SKU. Супермаркет має базу даних транзакцій, де кожна транзакція це набір артикулів, які були куплені разом.

Нехай база даних угод складається з наступних наборів:

Набір
{1,2,3,4}
{1,2,4}
{1,2}
{2,3,4}
{2,3}
{3,4}
{2,4}

Ми будемо використовувати Apriori, щоб визначити часті набори товарів цієї бази даних. Для цього будемо говорити, що набір товарів частий, якщо він з'являється, принаймні, у 3 транзакціях бази даних: значення 3 є пороговим значенням (англ. support threshold).

Перший крок Apriori — це підрахування числа входжень, який називаємоє затребуваністю (англ. Support), для кожного елементу окремо. При скануванні бази даних в перший раз, ми отримуємо наступний результат

Набір Затребуваність
{1} 3
{2} 6
{3} 4
{4} 5

Всі набори елементів розміром 1 мають затребуваність, принаймні, 3, тому вони більш часті.

Наступним кроком є створення списку всіх пар частих елементів.

Наприклад, щодо пари {1,2}: перша таблиця з прикладу 2 показує, що пункти 1 і 2 з'являються разом в трьох наборах. Тому ми говоримо, що пункт {1,2} має затребуваність три.

Набір Затребуваність
{1,2} 3
{1,3} 1
{1,4} 2
{2,3} 3
{2,4} 4
{3,4} 3

Пари {1,2}, {2,3}, {2,4} і {3,4} всі відповідають або перевищують мінімальну затребуваність 3, так що вони часті. Пари {1,3} і {1,4} не є частими. Тепер, тому що {1,3} і {1,4} не часті, будь-який більший набір, який містить {1,3} або {1,4} не може бути частим. Таким чином, ми можемо скоротити набори: тепер ми будемо шукати часті трійки в базі даних, але ми вже можемо виключити всі трійки, які містять одну з цих двох пар:

Набір Затребуваність
{2,3,4} 2

в даному прикладі, немає частих трійок — {2,3,4} нижче мінімального порогу, і інші трійки були виключені, тому що вони були наборами пар, які вже були нижче затребуваності.

Таким чином, ми визначили часті набори елементів в базі даних, а також показали, як деякі елементи не були підраховані, тому що про одну з їх підмножин вже було відомо, що вона нижче порогового значення.

Обмеження

Алгоритм Apriori страждає від низкої ефективності та компромісів, що привело до виникнення інших алгоритмів. Утворення кандидата породжує велику кількість підмножин (алгоритм намагається завантажити в набір кандидатів якомога більше даних перед кожним скануванням). Пошук підмножин проходом від низу до верху (по суті обхід в ширину підмножини решітки) знаходить будь-яку максимальну підмножину S тільки після того, як будуть знайдено її власних підмножин.

Алгоритм сканує базу даних дуже багато разів, що суттєво скорочує швидкодію. Тому, для того щоб алгоритм працював швидко, потрібно, щоб база постійно знаходилась у пам'яті.

Також часова та просторова складність алгоритму є дуже високими.

Пізніші алгоритми, такі як Max-Miner[2] намагаються визначити максимальні часті набори записів, не перераховуючи їх підмножини, і виконуючи «стрибки» в просторі пошуку, на відміну від чистого подходу з низу до верху.

Посилання

  1. Rakesh Agrawal and Ramakrishnan Srikant Fast algorithms for mining association rules in large databases [Архівовано 25 лютого 2015 у Wayback Machine.]. Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, pages 487—499, Santiago, Chile, September 1994.
  2. Bayardo Jr, Roberto J. (1998). Efficiently mining long patterns from databases (PDF). ACM SIGMOD Record. 27 (2). Архів оригіналу (PDF) за 23 березня 2016. Процитовано 27 травня 2017.


Read other articles:

تحتاج هذه المقالة كاملةً أو أجزاءً منها لإعادة الكتابة حسبَ أسلوب ويكيبيديا. فضلًا، ساهم بإعادة كتابتها لتتوافق معه. هذه المقالة بحاجة لمراجعة خبير مختص في مجالها. يرجى من المختصين في مجالها مراجعتها وتطويرها. اقتصاد تركياليفينت المنطقة التجارية في إسطنبولعامالدولة تركيا

 

Грамота господарів Іллі I та Штефана II до логофета Оанчі від 17 липня 1436 року Створений: 17 липня 1436Розташування ВаслуйПідписанти: Ілля I, Штефан II Підтвердна грамота від 17 липня 1436 р. була видана молдавськими господарями Іллею I та Штефаном II у м. Васлуя і містить першу писе

 

Heygendorf Stadt und Landgemeinde Artern Koordinaten: 51° 21′ N, 11° 22′ O51.3511.366666666667122Koordinaten: 51° 21′ 0″ N, 11° 22′ 0″ O Höhe: 122 m Fläche: 9,38 km² Einwohner: 536 (31. Dez. 2017) Bevölkerungsdichte: 57 Einwohner/km² Eingemeindung: 1. Januar 2019 Postleitzahl: 06556 Vorwahl: 03466 Dorfkirche Heygendorf ist ein Ortsteil der Stadt und Landgemeinde Artern im thüringischen Kyffhäuser...

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada Februari 2023. Liquidity Direct Market AccessIndustriPlatform TradingDidirikan2022PendiriFrank PostanofKantorpusatUnited States of AmericaPemilikLiquidity Solutions LTDSitus webwww.liquidityprovider.company Liquidity Direct Market Access adalah sebuah platform tradi...

 

Garona beralih ke halaman ini. Untuk karakter permainan Warcraft, lihat Garona Halforcen. GaronneCiri-ciri fisikMuara sungaiMuara Gironde,Samudera AtlantikPanjang575 kmLuas DASDAS: 84,811 km² **termasuk Dordogne Garonne (Prancis: Garonne; dalam Occitan, Katalan dan Spanyol: Garona; bahasa Latin: Garumna) adalah sebuah sungai di baratdaya Prancis dan utara Spanyol, dengan panjang 575 km (357 mil). Geografi Sungai ini bermula di lembah Pic Aneto dan mengalir ke dalam terowongan be...

 

Most extreme and steepest global 400 m uphill sprint Red Bull 400first ever Red Bull 400 event in Kulm (2011)First played25 September 2011Kulm, Tauplitz, AustriaCharacteristicsTypeextreme sportsVenueAsia, Europe, North America Red Bull 400 is a world series founded by Red Bull in 2011, the steepest global 400 m uphill sprint. Competitors from all over the world run from the bottom to the top of ski jumping and ski flying hills, beating the total distance of 400 metres (1312 ft) with max ...

Ophir Award Premio a Best in filmOtorgado por Israeli Film and Television AcademyUbicación IsraelHistoriaPrimera entrega 1990[www.israelfilmacademy.co.il Sitio web oficial][editar datos en Wikidata] Los Premios Ophir (en hebreo: פרס אופיר‎), conocidos coloquialmente como los Oscars israelíes, son los premios del cine por excelencia en la industria cinematográfica israelí. Son otorgados por la Academia Israelí de Cine y Televisión. El premio, llamado así en homen...

 

Dale JarrettJarrett pada tahun 2011.LahirDale Arnold Jarrett26 November 1956 (umur 67)Conover, North Carolina, U.S.Karier NASCAR Seri Piala668 lomba dalam kurun waktu 24 tahunHasil terbaik1st (1999)Lomba pertama1984 Sovran Bank 500 (Martinsville)Lomba terakhir2008 Food City 500 (Bristol)Menang pertama1991 Champion Spark Plug 400 (Michigan)Menang terakhir2005 UAW Ford 500 (Talladega) Menang Top 10 Pole 32 260 16 Karier NASCAR Seri Xfinity329 lomba dalam kurun waktu 20 tahunHasil terbaik4t...

 

American basketball player Skip WiseWise with the Clemson Tigers during the 1974–75 seasonPersonal informationBorn (1955-07-25) July 25, 1955 (age 68)NationalityAmericanListed height6 ft 2 in (1.88 m)Listed weight170 lb (77 kg)Career informationHigh schoolPaul Laurence Dunbar(Baltimore, Maryland)CollegeClemson (1974–1975)PositionPoint guardNumber10Career history1975San Antonio Spurs Career highlights and awards First-team All-ACC (1975) First-team Parade All-...

قرية قزافة  - قرية -  تقسيم إداري البلد  اليمن المحافظة محافظة المحويت المديرية مديرية ملحان العزلة عزلة الروضة السكان التعداد السكاني 2004 السكان 230   • الذكور 119   • الإناث 111   • عدد الأسر 31   • عدد المساكن 31 معلومات أخرى التوقيت توقيت اليمن (+3 غرينيتش) ...

 

Over-indulgence and over-consumption, such as of food For the professional Super Smash Bros. player, see Glutonny. For other uses, see Gluttony (disambiguation). Der Völler by Georg Emmanuel Opiz A woodcut representing gluttony Gluttony (Latin: gula, derived from the Latin gluttire meaning to gulp down or swallow) means over-indulgence and over-consumption of food or drink. In Christianity, it is considered a sin if the excessive desire for food leads to a lack of control over one's relation...

 

У Вікіпедії є статті про інших людей із прізвищем Пікколоміні. Франческо Пікколоміні Народився 12 жовтня 1582(1582-10-12)Сієна, Тоскана, ІталіяПомер 17 червня 1651(1651-06-17) (68 років)Рим, Папська державаДіяльність філософЗнання мов італійська[1]Заклад Roman CollegedПосада Генерал Товари...

Raising Demons AuthorShirley JacksonRelease number2nd in seriesGenreMemoirPublisherPenguin Books (2015 edition)Doubleday (2000 edition)Quality Paperback Book Club (1998 edition)Academy Chicago Publishers (1994 edition)Popular Library (1979 edition)[1]Publication date1957ISBN0-14-312729-2Preceded byLife Among the Savages  Raising Demons is a domestic memoir[2] by American author Shirley Jackson.[3] It was first published in 1957, as a follow-up to her first me...

 

Георгий Бударов В роли Томсона в фильме «Миклухо-Маклай» (1947) Имя при рождении Георгий Иванович Бударов Дата рождения 8 декабря 1897(1897-12-08)[1] Место рождения Казачинское Дата смерти 8 июня 1973(1973-06-08) (75 лет) или 1973[2] Место смерти Москва, СССР Гражданство  Российск...

 

2008 Indian filmVambu SandaiDVD coverDirected byRaj KapoorWritten byK. Selva BharathyProduced byVenkatesh AStarringUday KiranSathyarajDiyaCinematographySureshMusic byD. ImmanProductioncompanyJai Mataji Cine CombinesRelease date 29 February 2008 (2008-02-29) Running time137 minutesCountryIndiaLanguageTamilBudget₹3 crore Vambu Sandai is a 2008 Indian Tamil-language film starring Uday Kiran, Sathyaraj, and Diya. The film was partially reshot in Telugu as Lakshmi Putrudu (transla...

Group of castles in Britain and Ireland Distribution of tower houses in Britain and Ireland Tower houses (Irish: caisleán) appeared on the Islands of Ireland and Great Britain starting from the High Middle Ages. They were constructed in the wilder parts of Great Britain and Ireland, particularly in Scotland, and throughout Ireland, until at least up to the 17th century. The remains of such structures are dotted around the Irish and Scottish countryside, with a particular concentration in the...

 

State highway in Pennsylvania, US Pennsylvania Route 551Route informationMaintained by PennDOT and Pulaski TownshipLength33.638 mi[1] (54.135 km)Major junctionsSouth end PA 18 in Beaver FallsMajor intersections I-376 Toll in Big Beaver PA 168 in Darlington PA 351 in Enon Valley PA 108 in North Beaver Township PA 317 in North Beaver Township US 224 in Mahoning Township US 422 in Mahoning Township PA 208 in Pulaski Township Nor...

 

Para otros usos de este término, véase Registro. Fig. 1: Registro de desplazamiento de 4 bits. Fig. 2: Símbolo de registro de desplazamiento de 4 bits. Un registro de desplazamiento es un circuito digital secuencial (es decir, que los valores de sus salidas dependen de sus entradas y de los valores anteriores) consistente en una serie de biestables, generalmente de tipo D, conectados en cascada (Fig. 1), que basculan de forma sincrónica con la misma señal de reloj. Según las conexiones ...

Community theatre in Alexandria, Virginia Entrance of the Little Theatre in 2020 The Little Theatre of Alexandria is a community theatre located at 600 Wolfe Street in Alexandria, Virginia. It was founded by Mary Lindsey in 1934 and was originally known as the Peacock Players. It has since staged more than 350 productions. During recent years it has produced a seven to ten show season.[1] and is particularly well known for its one-act playwriting competition. It has played an importan...

 

AirportSanphebagar AirportIATA: FEBICAO: VNSRSummaryAirport typePublicOwnerGovernment of NepalOperatorCivil Aviation Authority of NepalServesSanphebagar, NepalElevation AMSL1,955 ft / 596 mCoordinates29°14′0″N 081°13′0″E / 29.23333°N 81.21667°E / 29.23333; 81.21667MapSanphebagar AirportLocation of airport in NepalRunways Direction Length Surface m ft 2/20 530 1,739 Asphalt[1] Source:[2][3][4] Sanphebagar Airpo...

 

Strategi Solo vs Squad di Free Fire: Cara Menang Mudah!