Снижение размерности в задачах статистики, машинного обучения и теории информации — набор техник преобразования данных, направленных на уменьшение числа переменных путём выявления главных переменных[1]; в общем случае может быть разделено на отбор признаков и выделение признаков[2]. Снижение размерности наборов данных позволяет снизить требуемое время и требуемую память для обработки набора, улучшить скорость моделей машинного обучения за счёт удаления мультиколлинеарности, проще представить данные визуально (в двумерных и трёхмерных графиках).
Для любых наборов данных высокой размерности (например, когда осуществляется поиск подобия в видеопотоке, ДНК данных или временном ряде высокой размерности) использование быстрого приближённого K-NN поиска с помощью методов «locality sensitive hashing», случайной проекции[англ.][5], «выжимок (sketches)»[6] (например, тензорный скетч) или других высокоразмерных техник поиска похожести из арсенала сверхбольших баз данных[уточнить] может оказаться единственно возможным вариантом.
Метод отбора признаков пытается найти подмножество исходных переменных (которые называются признаками или атрибутами). Есть три стратегии — стратегия фильтра (например, накопление признаков[англ.]), стратегия обёртывания (например, поиск согласно точности) и стратегия вложения (выбираются признаки для добавления или удаления по мере построения модели, основанной на ошибках прогнозирования). См. также задачи комбинаторной оптимизации.
В некоторых случаях анализ данных, такой как регрессия или классификация, может быть осуществлён в редуцированном пространстве более точно, чем в исходном пространстве[7].
Основная линейная техника для снижения размерности, метод главных компонент, осуществляет линейное отображение данных в пространство меньшей размерности таким образом, что дисперсия данных в малоразмерном представлении максимизируется. На практике строится матрицаковариации (а иногда корреляции) данных и вычисляются собственные вектора этой матрицы. Собственные вектора, соответствующие наибольшим собственным значениям (главные компоненты) теперь можно использовать для восстановления большей части дисперсии исходных данных. Более того, первые несколько собственных векторов часто можно интерпретировать в терминах крупномасштабного физического поведения системы. Исходное пространство (с размерностью, равной числу точек) редуцируется (с потерей данных, но с надеждой, что остаётся наиболее важная дисперсия) до пространства, натянутого на несколько собственных векторов.
Неотрицательное матричное разложение раскладывает неотрицательную матрицу на произведение двух неотрицательных матриц, которые имеют многообещающие средства в областях, где существуют только неотрицательные сигналы[11][12], таких как астрономия[13][14]. Неотрицательное матричное разложение хорошо известно ввиду правила мультипликативных корректировок (англ.multiplicative update rule) Ли и Сына[11], которое непрерывно разрабатывалось: включение неопределённости (англ. the inclusion of uncertainties)[13], учёт отсутствующих данных (англ.the consideration of missing data) и параллельные вычисления[15], последовательное построение (англ.sequential construction)[15], которое ведёт к стабильности и линейности НМР[14], а также другие корректировки.
Со стабильным компонентным базисом во время построения и линейным процессом моделирования последовательное неотрицательное матричное разложение (англ.sequential NMF)[15] способно сохранить поток околозвёздных структур прямого наблюдения (то есть наблюдаемых непосредственно, а не по косвенным признакам) в астрономии[14], как один из методов обнаружения экзопланет, особенно для околозвёздных дисков прямого наблюдения. По сравнению с МГК неотрицательное матричное разложение не удаляет среднее матриц, удаление которых приводит к нефизическим неотрицательным потокам, потому НМР способно сохранить больше информации, чем метод главных компонент, что продемонстрировал Рен с соавторами[14].
Метод главных компонент может применяться другим способом при использовании ядерного трюка. Получающаяся техника способна построить нелинейные отображения, которые максимизируют дисперсию данных. Эта техника называется ядерным методом главных компонент[англ.].
Недавно были предложены техники, которые вместо определения фиксированного ядра пытаются изучить ядро с помощью полуопределённого программирования. Наиболее значительным примером такой техники является развертка по максимуму невязки (РМН). Центральная идея РМН состоит в точности в сохранении всех попарных расстояний между ближайшими соседями (в пространстве со скалярным произведением), максимизируя при этом расстояния между точками, не являющимися ближайшими соседями.
Альтернативный подход к сохранению соседства заключается в минимизации функции цены, которая измеряет расстояния во входном и выходном пространствах. Важные примеры таких техник: классическое многомерное шкалирование, которое идентично МГК; Isomap[англ.], которая использует геодезические расстояния в пространстве данных; метод диффузионных карт[англ.], который использует диффузионные расстояния в пространстве данных; стохастическое вложение соседей с t-распределением (англ.t-distributed stochastic neighbor embedding, t-SNE), который минимизирует разницу между парами точек, UMAP (Uniform Approximation and Projection), который минимизирует дивергенцию Кульбака-Лейблера между множествами в высоко- и низкоразмерном пространствах[16], и нелинейный анализ компонент (англ.Curvilinear Component Analysis, CCA).
Другой подход к нелинейному снижению размерности — через использование автокодировщиков, специального вида нейронных сетей прямого распространения (англ.feed-forward networks) с бутылочным (в виде бутылочного горлышка) скрытым слоем[17]. Обучение глубоких кодировщиков обычно осуществляется с использованием жадного послойного предобучения (например, используя каскад ограниченных машин Больцмана), за которым следует этап тонкой настройки, основанный на методе обратного распространения ошибки.
Линейный дискриминантный анализ является обобщением линейного дискриминанта Фишера, метода, применяемого в статистике, распознавании образов и машинном обучении для поиска линейной комбинации признаков, которые описывают или разделяют два и более класса объектов или событий.
Обобщённый дискриминантный анализ
Обобщённый дискриминантный анализ имеет дело с нелинейным дискриминантным анализом с помощью оператора ядра функции (англ.kernel function operator). Лежащая в основе теория близка к методу опорных векторов, поскольку обобщённый дискриминантный анализ даёт отображение входных векторов в пространство признаков высокой размерности [18][19]. Аналогично линейному, целью обобщённого дискриминантного анализа является поиск проекции признаков в пространство меньшей размерности с максимизацией отношения межклассовой инвариантности (англ.between-class scatter) к внутриклассовой инвариантности (англ.within-class scatter).
Автокодировщик может быть использован для изучения функций нелинейного снижения размерности и кодирования вместе с обратной функцией из кодированного к исходному представлению.
Pudil P., Novovičová J.Novel Methods for Feature Subset Selection with Respect to Problem Knowledge // Feature Extraction, Construction and Selection / Huan Liu, Hiroshi Motoda. — 1998. — ISBN 978-1-4613-7622-4. — doi:10.1007/978-1-4615-5725-8_7.
Ding C., He X., Zha H., Simon H.D.Adaptive Dimension Reduction for Clustering High Dimensional Data // Proceedings of International Conference on Data Mining. — 2002.
Stephen A. Zahorian, Hongbing Hu.Nonlinear Dimensionality Reduction Methods for Use with Automatic Speech Recognition // Speech Technologies. — 2011. — ISBN 978-953-307-996-7. — doi:10.5772/16863.
Dhyaram Lakshmi Padmaja, B Vishnuvardhan. Comparative Study of Feature Subset Selection Methods for Dimensionality Reduction on Scientific Data. — 2016. — Август. — С. 31–34. — doi:10.1109/IACC.2016.16.