Поиск изображений по содержанию (англ. Content-based image retrieval (CBIR)) — раздел компьютерного зрения, решающий задачу поиска изображений, которые имеют требуемое содержание, в большом наборе цифровых изображений.
Алгоритм поиска должен анализировать содержание изображения, например, цвет представленных на нём объектов, их форму, текстуру, композицию сцены. При отсутствии возможности проанализировать сцену при поиске рассматриваются метаданные: ключевые слова, метки.
История
Термин «Content-based image retrieval» впервые был введен в употребление в 1992 году Т. Като при описании экспериментов с автоматическим поиском изображений по критериям присутствующих цветов и геометрических форм. С того момента его применяют как обобщение процесса выборки изображений из базы по любым синтаксическим характеристикам объектов. Используемые алгоритмы, методы и программные инструменты берут начало в областях, связанных с обработкой сигналов, компьютерным зрением и статистикой.
Развитие
К области поиска изображений по содержательным критериям в настоящее время возрастает интерес, связанный с ограниченностью методов, основанных исключительно на категоризации метаданных, а также растущим потенциалом её применимости. В настоящий момент алгоритмы категоризации и поиска в текстовых данных позволяют довольно эффективно обращаться с описанными изображениями по метаданным, однако такой подход требует ручного описания каждого изображения в базе человеком. Это совершенно непрактично, в особенности в применении к большим базам или изображениям, создаваемым автоматически (например, камерами видеонаблюдения). Плюс ко всему есть далеко не нулевая вероятность упустить одно из целевых изображений поиска из-за многозначности или синонимии.
Потенциальные области применения алгоритмов поиска по содержанию:
- Поиск изображений в сети Интернет
- Каталогизация изображений произведений искусства
- Организация работы с архивами фотографических снимков
- Организация каталогов розничной продажи товаров
- Медицинская диагностика заболеваний
- Предотвращение преступлений и беспорядков
- Военно-оружейное применение
- Вопросы контроля за распространением интеллектуальной собственности
- Получение информации о местоположении удаленных зондов и географическое позиционирование
- Контроль за содержимым массивов изображений
Программные системы и алгоритмы
Несмотря на то, что существует множество программных комплексов по поиску изображений в базах данных, проблема поиска на основе пиксельного содержания в большинстве ситуаций пока не имеет реализованного решения. Смотри список поисковых систем по изображениям.
Способы построения запросов
Различные реализации систем поиска изображений по содержанию работают со следующими типами пользовательских запросов:
Пример результата
Предполагается, что система производит поиск на основе входного изображения, указываемого пользователем. Алгоритмы, составляющие систему, могут иметь различные способы описания и работы с входным изображением, но все результирующие экземпляры изображений должны иметь общие элементы с входом, указанным пользователем.
Пользователь может подать на вход как существующее изображение, так и грубый набросок требуемого результата (разметку на цветные области или простые геометрические формы).[1]
При данном способе построения запросов не возникает трудностей, связанных с представлением изображения набором слов.
Разрешение семантики запроса
В идеале система поиска должна уметь обрабатывать запросы пользователя, сформулированные в свободной форме, например «найти фотографии собак» или даже «найти портреты Леонида Ильича Брежнева». Запросы такого типа очень сложны для обработки компьютером, ведь фотографии лабрадора и карликового пуделя сильно различаются, а Леонид Ильич не всегда смотрит в камеру в одинаковой позе. В настоящий момент многие системы используют для классификации характеристики низшего уровня, такие как цвет, текстура и форма объекта, хотя существуют и системы, в основном основанные на дифференциации критериев высокого уровня (см. Теория распознавания образов). Большинство систем не являются широко ориентированными. Например, системы поиска изображений, сгенерированных на компьютере, с успехом обходятся признаками, основанными на совмещении форм и градиентов.
Прочие способы
Эта категория включает в себя такие формы запросов, как определение категории в предложенной иерархии, запрос в виде части изображения, ожидаемого в качестве результата, расширение запроса дополнительными изображениями, графичный набросок, состоящий из сложных форм, а также комбинацию методов.
Также возможно постепенное уточнение запроса, когда пользователь в процессе работы системы поиска помечает промежуточные результаты как «подходящие» или «неудовлетворительные», и система продолжает работать с уточнённым запросом.
Методы описания содержания
Здесь представлены наиболее общие методы описания содержания изображений, использующиеся для последующего сравнения их между собой. Все они являются потенциально широко применимыми, то есть не специфическими для какого-либо особенного подкласса систем.
Цвет
Поиск изображений с помощью сравнения цветовых составляющих производится с помощью построения гистограммы их распределения. В настоящий момент ведутся исследования по построению описания, в котором изображение делится на регионы по сходным цветовым характеристикам, и далее учитывается их взаимное расположение. Описание изображений цветами, которые на них содержатся, является наиболее распространённым, так как оно не зависит от размера или ориентации изображения. Построение гистограмм с последующим их сравнением используется наиболее часто, но не является единственным способом описания цветовых характеристик.
Текстура
Методы такого описания работают со сравнением текстурных образцов, присутствующих на изображении, и их взаимного расположения. Для определения текстуры используют тексели, которые объединяют в множества. Они содержат не только информацию, описывающую текстуру, но и её местоположение на описываемом изображении.
Текстуру как сущность сложно формализованно описать, и обычно её представляют в виде двухмерного массива изменения яркости. Также в описание иногда включают меру контраста, направленности градиента, регулярности. Существует проблема сравнения ковариации пикселей с целью присваивания текстурам классов, таких как «гладкая» или «грубая».
Форма
Описание формы предполагает описание геометрической формы отдельных регионов изображения. Для её определения к региону сначала применяют сегментацию или выделение границ. Существуют и другие способы, например фильтрация форм (Tushabe and Wilkinson, 2008). Часто определение формы требует вмешательства человека, так как методы типа сегментации сложно полностью автоматизировать для широкого класса задач.
Применение
Существуют компании, представляющие программные продукты, в которых алгоритмы поиска изображений по содержанию применяются для фильтрации содержимого веб-страниц и государственного мониторинга сетевого трафика с целью отслеживания изображений порнографического содержания.
Примеры:
Ссылки
- Query by Image and Video Content: The QBIC System, (Flickner, 1995)
- Finding Naked People (Fleck et al., 1996)
- Virage Video Engine (недоступная ссылка), (Hampapur, 1997)
- Library-based Coding: a Representation for Efficient Video Compression and Retrieval, (Vasconcelos & Lippman, 1997)
- System for Screening Objectionable Images (Wang et al., 1998)
- Content-based Image Retrieval (JISC Technology Applications Programme Report 39) (Eakins & Graham 1999)
- A Probabilistic Architecture for Content-based Image Retrieval, (Vasconcelos & Lippman, 2000)
- A Unifying View of Image Similarity, (Vasconcelos & Lippman, 2000)
- Next Generation Web Searches for Visual Content, (Lew, 2000)
- Image Indexing with Mixture Hierarchies, (Vasconcelos, 2001)
- SIMPLIcity: Semantics-Sensitive Integrated Matching for Picture Libraries (Wang, Li, and Wiederhold, 2001)
- FACERET: An Interactive Face Retrieval System Based on Self-Organizing Maps (недоступная ссылка) (Ruiz-del-Solar et al., 2002)
- Automatic Linguistic Indexing of Pictures by a Statistical Modeling Approach (Li and Wang, 2003)
- Video google: A text retrieval approach to object matching in videos (Sivic & Zisserman, 2003)
- Minimum Probability of Error Image Retrieval (Vasconcelos, 2004)
- On the Efficient Evaluation of Probabilistic Similarity Functions for Image Retrieval (Vasconcelos, 2004)
- Extending image retrieval systems with a thesaurus for shapes (Hove, 2004)
- Names and Faces in the News (Berg et al., 2004)
- Cortina: a system for large-scale, content-based web image retrieval (Quack et al., 2004)
- A new perspective on Visual Information Retrieval (Eidenberger 2004)
- Language-based Querying of Image Collections on the basis of an Extensible Ontology (Town and Sinclair, 2004)
- Costume: A New Feature for Automatic Video Content Indexing (Jaffre 2005)
- Automatic Face Recognition for Film Character Retrieval in Feature-Length Films (Arandjelovic & Zisserman, 2005)
- Algorithm on which Retrievr (Flickr search) and imgSeek is based on (Jacobs, Finkelstein, Salesin)
- Image Retrieval: Ideas, Influences, and Trends of the New Age (Datta et al., 2008)
- Evaluating Use of Interfaces for Visual Query Specification. (Hove, 2007)
- From Pixels to Semantic Spaces: Advances in Content-Based Image Retrieval (Vasconcelos, 2007)
- Content-based Image Retrieval by Indexing Random Subwindows with Randomized Trees (Maree et al., 2007)
- Real-Time Computerized Annotation of Pictures (Li and Wang, 2008)
- Bird, C.L.; P.J. Elliott, Griffiths. User interfaces for content-based image retrieval (неопр.). — 1996.
- Rui, Yong; Thomas S. Huang, Shih-Fu Chang. Image Retrieval: Current Techniques, Promising Directions, and Open Issues (неопр.). — 1999.
- Datta, Ritendra; Dhiraj Joshi, Jia Li, James Z. Wang. Image Retrieval: Ideas, Influences, and Trends of the New Age (англ.) // ACM Computing Surveys[англ.] : journal. — 2008. — Vol. 40. — P. 1—60. — doi:10.1145/1348246.1348248.
- Tushabe, F.; M.H.F. Wilkinson. Content-based Image Retrieval Using Combined 2D Attribute Pattern Spectra (англ.) // Springer Lecture Notes in Computer Science : journal. — 2008.
Примечания