Метапоисковая система собирает ранжированныерезультаты поиска по конкретному запросу из нескольких поисковых систем, с помощью связующего алгоритма отсеивает дублирующиеся результаты и создаёт новый ранжированный список, предоставляемый пользователю через централизованный интерфейс[2].
Ранжируя результаты, полученные от отдельных поисковых систем, метапоисковая машина может использовать уже сформировавшийся рейтинг таких систем, основанный на качестве результатов, полученных от них при предыдущих запросах[3]. Без учёта индексов релевантности работают алгоритмы агрегации рейтингов, в которых каждая поисковая система рассматривается как избиратель на выборах, а каждая позиция поисковой выдачи — как кандидат на этих выборах. В число таких алгоритмов входят метод Борда, присваивающий каждой позиции определённое количество очков и потом суммирующий очки от всех избирателей для каждого кандидата, и метод Кондорсе, в котором очки присваиваются за однозначные «победы» в каждой паре кандидатов. Метод Кондорсе даёт более объективные результаты, тогда как метод Борда значительно легче алгоритмизировать. Ещё один метод, взвешенный алгоритм HITS, представляет собой вариант алгоритма HITS, в котором каждая поисковая система рассматривается как хаб-страница, а каждая интернет-страница, обнаруживаемая при поиске, — как авторитетная страница[4].
Метапоисковые машины нового поколения, помимо обработки конкретного запроса, выделяют ключевые слова или темы, связанные с ним, и создают облако тегов или предоставляют набор связанных ключевых запросов по теме, позволяя пользователю внести в поиск уточнения[5].
Преимущества и недостатки
Отправка множества запросов к нескольким другим поисковым системам расширяет покрытие доступных данных по теме и позволяет найти больше информации. Метапоиск использует индексы, собранные другими поисковыми системами, агрегируя и часто перерабатывая результаты собственными уникальными способами. Метапоисковая система имеет преимущество перед выдачей от одной поисковой системы, потому что пользователь получит больше результатов при одинаковых усилиях. Это сокращает объём работ, когда пользователи для поиска ресурсов вводят запросы в разные системы по отдельности[6]. С этой точки зрения метапоисковые системы наиболее полезны начинающим пользователям и представляют меньший интерес для опытных[1].
За счёт отсутствия собственного крупномасштабного механизма индексации метапоисковые системы занимают относительно небольшой объём диска. В некоторых случаях такие системы могут устанавливаться напрямую на компьютер пользователя и в дальнейшем обеспечивать значительную персонализацию поиска[3].
Предположительные преимущества метапоисковой системы связаны также с эффектом «целое больше суммы частей». Разные алгоритмы поиска эффективны в разной степени в зависимости от контекста, и это означает, что агрегированные результаты выдачи нескольких поисковых систем по качеству могут превосходить простую сумму выдач. В то же время в реальности ряд поисковых систем запрещает метапоисковым машинам пользоваться их выдачей бесплатно. Результатом стало заключение соглашений между метапоисковыми системами и ведущими поисковыми системами, как правило подразумевающих размещение платной рекламы последних на сайтах метапоисковых систем[2]. Кроме того, некоторые из метапоисковых машин не обладают развитым собственным алгоритмом ранжирования, полагаясь на индексы релевантности, получаемые от каждой поисковой системы в отдельности[3].
Исторические метапоисковые системы
В 1995 году в Интернете начали работу сразу несколько метапоисковых машин, продолжавших свою работу в течение следующих полутора десятилетий. Первой коммерчески используемой в Интернете метапоисковой машиной стала MetaCrawler[англ.], разработанная в Вашингтонском университете. Она продемонстрировала жизнеспособность метапоиска и уже в первый год существования обрабатывала по 100 тысяч запросов в день, а к 2000 году — по 2 миллиона запросов в день. Коммерческое лицензирование программы компанией Go2Net[англ.] произошло в 1996 году[7].
В том же году появилась метапоисковая система SavvySearch[англ.], разработанная в Университете штата Колорадо[англ.]. Алгоритм работы этой машины включал оценку эффективности каждой из задействованных поисковых систем в конкретных контекстах, основанную на метаиндексе, содержащем историю предшествующих интеракций. В 1999 году система была приобретена сайтом CNET[7].
Ещё позже в 1995 году создана метапоисковая система ProFusion, разработанная в Канзасском университете. Система задействовала рейтинг доверия, включавший оценки, присваивавшиеся отдельным поисковым машинам путём формулирования учебных запросов, каждый из которых входил в ряд тематических категорий. Машина приобретена в 2000 году компанией Intelliseek (с 2006 года в составе BuzzMetrics) и позже выведена из употребления[7].
В 1996 году запущена коммерчески успешная метапоисковая система Dogpile[англ.]. Она была разработана юристом-исследователем Аароном Флином и в 1999 году приобретена Go2Net. Среди платных партнёров системы — Google, Yahoo и Ask Jeeves, и она представляет результаты на выбор пользователя ранжированными по релевантности или по поисковым системам. К 2000 году, как и MetaCrawler, Dogpile обрабатывала по 2 миллиона запросов в день[8].