Задача класифіка́ції — формалізована задача, яка містить множину об'єктів (ситуацій), поділених певним чином на класи. Задана скінченна множина об'єктів, для яких відомо, до яких класів вони належать. Ця множина називається вибіркою. До якого класу належать інші об'єкти невідомо. Необхідно побудувати такий алгоритм, який буде здатний класифікувати довільний об'єкт з вихідної множини.
Класифікувати об'єкт — означає, вказати номер (чи назву) класу, до якого належить цей об'єкт.
Класифікація об'єкта — номер або найменування класу, що видається алгоритмом класифікації в результаті його застосування до цього об'єкта.
Існують також інші способи постановки експерименту — навчання без вчителя, але вони використовуються для вирішення іншого завдання — кластеризації або таксономії. У цих завданнях поділ об'єктів навчальної вибірки на класи не задається, і потрібно класифікувати об'єкти тільки на основі їх подібності. У деяких прикладних областях, і навіть у самій математичній статистиці, через близькість завдань часто не відрізняють завдання кластеризації від завдання класифікації.
Деякі алгоритми для вирішення задач класифікації комбінують навчання з учителем і навчання без вчителя, наприклад, одна з версій нейронних мереж Кохонена — Мережі векторного квантування, яких навчають способом навчання з учителем.
Математичне формулювання завдання
Нехай — множина описів об'єктів,
—множина номерів (чи назв) класів.
Існує невідома цільова залежність- відображення
,
значення якої відомі лише на елементах скінченної навчальної вибірки
.
Потрібно побудувати алгоритм
,
здатний класифікувати довільний об'єкт
.
Імовірнісне формулювання завдання
Загальнішим є імовірнісне формулювання завдання.
Припускається, що множина пар «об'єкт, клас»
є ймовірнісним простором
з невідомою ймовірнісною мірою .
Є скінченна навчальна вибірка спостережень
,
згенерована згідно з ймовірнісною мірою .
Необхідно побудувати алгоритм
,
здатний класифікувати довільний об'єкт
.
Простір характеристик
Характеристикою називається відображення
,
де
— множина допустимих значень характеристики.
Якщо задані характеристики
,
то вектор
називається характеристичним описом об'єкта
.
Характеристики можна ототожнювати із самими об'єктами.
При цьому множину
називають простором характеристик.
Залежно від множини характеристики поділяються на такі типи:
Часто зустрічаються прикладні задачі з різнотипними характеристиками, для їх вирішення підходять далеко не всі методи.
Типи задач класифікації
Типи вхідних даних
Характеристичний опис — найпоширеніший випадок. Кожен об'єкт описується набором своїх характеристик, які називаються ознаками. Ознаки можуть бути числовими або нечисловими.
Матриця відстаней між об'єктами. Кожен об'єкт описується відстанями до всіх інших об'єктів навчальної вибірки. З цим типом вхідних даних працюють деякі методи, зокрема, метод найближчих сусідів, метод потенційних функцій.
Часовий ряд або сигнал є послідовність вимірів у часі. Кожен вимір може представлятися числом, вектором, а в загальному випадку — характеристичним описом досліджуваного об'єкта в цей час часу.
Зображення або відеоряд.
Зустрічаються і складніші випадки, коли вхідні дані представляються у вигляді графів, текстів, результатів запитів до бази даних, і т. д. Як правило, вони приводяться до першого або другого випадку шляхом попередньої обробки даних та вилучення характеристик.
Двокласова класифікація. Найпростіший в технічному відношенні випадок, який служить основою для вирішення складніших завдань.
Багатокласова класифікація. Коли число класів досягає багатьох тисяч (наприклад, при розпізнаванні ієрогліфів або злитого мовлення), завдання класифікації стає істотно важчим.
Непересічні класи.
Пересічні класи. Об'єкт може належати одночасно до декількох класів.
Нечіткі класи. Потрібно визначати ступінь належності об'єкта кожному з класів, звичайно це дійсне число від 0 до 1.
Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.