Кластерные метапоисковики PolyMeta и Yippy

11 лет назад 19 августа 2013 в 17:05 1949

Идея метапоиска в интернете на бумаге выглядит гладко и заманчиво: обращаемся к максимальному количеству лучших баз, объединяем выдачу и получаем широкий охват источников по интересующей нас теме. Вот только реализовать это на практике достаточно сложно, есть немало примеров, когда в теории более продвинутые метапоисковые машины проигрывали по качеству результатов привычным универсальным поисковикам. Здесь нужны оригинальные решения и герои нашего обзора готовы их предложить.

Чуть ли не главная проблема метапоиска – отбор и сортировка результатов. Один из основных способов ее преодоления – кластеризация выдачи. Что касается русского метапоиска, то на рынке есть однозначный лидер – система Nigma, о которой мы рассказывали некоторое время тому назад. В то же время попытка использовать эту машину для поиска на иностранных языках принесет одно разочарование. Все-таки кластерные алгоритмы – одна из главных фишек «Нигмы», сильно привязаны к особенностям определенного языка, в данном случае – русского. Нужны зарубежные решения.

Предложений довольно много. Среди них есть и заслуженные ветераны, которые все еще работают, хотя предлагают возможности несколько архаичные для второго десятилетия двадцать первого века. Есть и относительно свежие проекты с инновационными находками. Пожалуй, самые продвинутые зарубежные кластерные метапоисковики – это системы PolyMeta и Yippy. Они демонстрируют различные подходы к поиску. PolyMeta полагается на объединение в одном интерфейсе выдачи крупных машин, а Yippy делает ставку исключительно на машины второго эшелона, потенциально способные блеснуть неизбитыми ссылками.

PolyMeta (www.polymeta.com) взаимодействует с полным комплектом крупнейших западных поисковиков: Google, Yahoo, Bing и Ask. Кроме того, обрабатывается выдача, полученная от амбициозного европейского проекта Exalead и относительно малоизвестного в наших краях поисковика Blekko. Список, как видим, сбалансированный. С одной стороны, мы не теряем результаты поисковых гигантов, с другой – получаем свеженькие варианты из оригинальных баз проектов второго эшелона. Набор поисковиков, на которые будут отправляться запросы, можно настраивать, так что при желании PolyMeta можно использовать как своеобразный кластерный интерфейс к какому-либо из поддерживаемых поисковиков.

Кроме поиска сайтов предлагаются стандартные варианты специализированного поиска по новостям, мультимедиа-контенту и блогам. Принципиальный подход разработчиков – ориентация на относительно небольшое количество результатов при повышенном внимании к их качеству. «Относительно небольшое» — это не просто красивая фигура речи: фильтрация здесь работает серьёзная.

В результате стандартная выдача PolyMeta по запросу – немногим более пяти десятков ссылок, отобранных из результатов задействованных источников. Эти ссылки распределяются по кластерам, причем PolyMeta не пытается поразить их количеством, достаточно аккуратно выделяя максимум десяток-полтора вариантов и представляя их в иерархическом порядке. Кластеризация результатов работает в базах веб-поиска, новостях и блогах.

Оригинальный режим демонстрации кластеров называется Topic Graph. Работает он на Java и соответственно требует наличия виртуальной машины. В этом режиме кластеры показываются наглядной схемой-деревом. Карта перестраивается в зависимости от того, какой узел выбран в конкретный момент. По умолчанию карта выводится в отдельном окне, но командой dock ее можно закрепить непосредственно на странице выдачи вместо стандартной панели со списком кластеров.

Результаты поиска хорошие. Выдача действительно отличается от «гугловской», периодически демонстрируя любопытные альтернативные ресурсы. Кластерная система хорошо разбирает запросы на основных европейских языках. Понимает она и русский, кластеры получаются адекватными, но до Nigma ей в данном случае все-таки далеко.

Страница выдачи достаточно насыщенная, в глазах немного рябит от «фейсбуковских» кнопочек и виджетов. Если говорить о полезных панелях, то справа выводятся блоки результатов поиска во всех вертикальных базах PolyMeta, что достаточно удобно. Поскольку количество ссылок в выдаче невелико, действует вся эта механика довольно шустро. Доступен режим предварительного просмотра найденных сайтов непосредственно на странице выдачи PolyMeta.

Yippy (yippy.com) – довольно заслуженный, если можно так сказать, проект – ему уже идет тринадцатый год. Базовая технология этого метапоисковика была разработана как академический проект в области сортировки больших массивов данных. Затем разработчики организовали компанию Vivisimo, которая торговала этим алгоритмом и держала для демонстрационных целей собственный одноименный метапоисковик. После прямого выхода на рынок именно интернет-поиска, проект стал называться Clusty. От всё еще работавшего параллельно поисковика Vivisimo он отличался только деталями дизайна. Компания Yippy несколько лет тому назад приобрела Clusty. Таким образом, современный Yippy – прямой наследник Clusty в части обработки информации, дополненный рядом новых баз и сервисов.

К метапоисковикам обычно обращаются, когда результаты крупных машин не приносят нужных данных. Тем интересней метапоисковики, работающие с относительно малоизвестными поисковыми ресурсами. Мало кто из альтернативщиков способен напрямую тягаться с тем же Google. А вот коллекция результатов таких поисковых «малышей» уже представляет практический интерес, все-таки лидеры поискового рынка иногда чересчур увлекаются фильтрацией и оптимизацией результатов и в такой сводной базе реально найти что-нибудь необычное и интересное, пропущенное роботами «больших парней».

Yippy опрашивает несколько систем, как с открытыми базами, так и с коммерческим доступом. Прямого полного списка источников не приводится, но проанализировав выдачу можно сказать, что в основе это Ask, Gigablast, активно используется OpenDirectory, а также некоторые индексные базы с коммерческим доступом. Кроме того, Yippy постепенно собирает и собственную базу. В результате такой набор источников как раз хорош для того, чтобы увидеть альтернативу лидерам рынка поиска.

Как и в PolyMeta, здесь сделана ставка на отбор в предлагаемую пользователю выдачу только относительно небольшого количества ссылок. Здесь, правда, все не так радикально, как у предыдущего участника нашего обзора и выдача, как правило, состоит из нескольких сотен ссылок.

Здесь также применяются технологии кластеризации результатов. Результаты работы этого алгоритма выводятся в боковой панели. По умолчанию она содержит четыре закладки. Clouds – это собственно перечень выявленных кластеров. Подсчитываться он может несколькими способами, переключаться между которыми можно кнопкой Remix. Есть своеобразный «поиск в найденном» — поле, с помощью которого можно найти и подсветить все кластеры, в которых встречается какое-либо дополнительное ключевое слово.

Остальные вкладки боковой панели позволяют отсортировать выдачу по формальным признакам: источникам, в которых они были найдены, сгруппировать по доменам и хронологическому признаку. На странице результатов рядом с каждой ссылкой есть кнопки, открывающие предварительный просмотр найденной страницы непосредственно на странице поисковой выдачи. Также есть возможность выделить в списке боковой панели все кластеры, в которых упоминается данная страница.

Кроме веб-поиска Yippy предлагает поиск по ряду вертикальных баз. Набор баз, ссылки на которые можно увидеть сразу рядом с полем поиска настраивается в опциях поисковика. Помимо стандартных по своим возможностям баз новостей, картинок и блогов здесь есть и доступ к достаточно забавному в эксплуатации кластерному интерфейсу поиска по Википедии. Мобильных приложений у Yippy пока нет, но присутствуют оптимизированные версии веб-поиска. Версии Tablet и Mobile отличаются дизайном и составом инструментов.

В целом результаты у Yippy достойные. Англоязычные запросы хорошо разбираются кластерным алгоритмом, который к тому же сразу сортирует их в виде иерархической структуры. Демонстрация только относительно небольшого количества лучших ссылок, полученных от внешних источников, как и в случае PolyMeta – ход неоднозначный, что несколько снижает ценность данных машин для совсем уж глубоких раскопок. Как бы то ни было, подборки ссылок по одинаковым запросам действительно серьезно отличаются от выдачи того же Google, что частенько позволяет по-новому взглянуть на знакомые темы в интернете, что, собственно, и стоило ожидать от данного метапоисковика.

Любопытна тенденция: современные зарубежные кластерные метапоисковики четко ориентированы на отбор небольшого количества лучших ссылок из задействованных источников. В результате они хороши для первоначального знакомства с той или иной темой с точки зрения сразу нескольких поисковиков – к нашим услугам будет удобная сортировка и различные вспомогательные инструменты. В то же время это ограничивает их возможности по работе с «длинным хвостом» результатов поиска. Таким образом, они во многом призваны играть роль своеобразных рекомендательных машин, а не инструментов глубокого анализа «скрытого веба».

Иван Петров

Никто не прокомментировал материал. Есть мысли?

Кластерные метапоисковики PolyMeta и Yippy

Отменить ответ