10 лет назад 24 сентября 2013 в 17:11 2375

Не существует ни одного поисковика, который бы индексировал весь интернет целиком. Как известно, основной способ пополнения баз интернет-поисковиков новыми страницами – работа программ-«пауков», роботов, которые находят новые ссылки и ставят в очередь на индексирование свежие страницы. Некоторые сайты будут найдены и проиндексированы пауками нескольких поисковиков. Однако всегда будет существовать определенный процент страниц, которые нашел только один из роботов.

В результате, хоть базы универсальных поисковиков во многом пересекаются, всегда существует определенный процент страниц, имеющихся в базе только одного конкретного поисковика. Отсюда происходит одно важное для нас практическое следствие: если пользоваться только одним поисковиком, даже самым крупным, мы априори будем терять некоторый процент результатов только потому, что их пропустил его робот.

В то же время они могут быть благополучно проиндексированы другим поисковиком. Метапоисковая система, принимая запрос от пользователя, опрашивает сразу несколько других поисковиков, объединяет и обрабатывает полученные результаты и выдает их единым списком. Такой подход существенно экономит наше время и усилия, которые были бы затрачены на самостоятельный поход по нескольким поисковикам.

Сейчас сложились два основных направления развития таких систем: универсальные и тематические метапоисковики. В первом случае опрашиваются базы крупных универсальных поисковиков, что придает поиску значительную широту. Во втором случае поисковик опрашивает тематические ресурсы. Это, как правило, либо системы, работающие с определенным видом контента, например, видеохостингами, или же сайтами определенной тематики, например, метапоиск отелей, товаров или решения других подобных задач.

Лучшей универсальной метапоисковой системой на русском языке, по моему мнению, является проект Nigma (nigma.ru). Это один из тех приятных случаев, когда с удовлетворением можно отметить, что русский поисковый сервис по своим базовым возможностям абсолютно не уступает лучшим зарубежным аналогам, а по дополнительным возможностям, пожалуй, и превосходит их.

Nigma уже не новичок на поисковом рынке: как-никак восьмой год на арене. Специализация системы – контент на русском языке. Соответственно и выбор внешних поисковиков, к которым обращается данная система, продиктован в первую очередь стремлением получить максимальный охват русского контента. Посмотреть на этот список можно открыв меню «Поисковики», расположенное под строкой запроса прямо на стартовой странице сервиса.

Используется шесть крупных баз, содержащих сведения о русскоязычных страницах – от Google и Яндекса до далеко не такой популярной в настоящее время AltaVista. Охват в результате получается действительно хороший. При желании можно отключать в настройках использование той или иной базы, а то и вообще оставить какой-нибудь один поисковик и использовать Nigma как промежуточный интерфейс. В этом есть смысл, поскольку получаемые в выдаче ссылки Nigma подвергает собственной обработке, применяя при этом технологию кластеризации результатов.

Работает эта интересная технология следующим образом. Найдя определенный массив страниц, в тексте которых встречаются заданные пользователем в запросе ключевые слова, система начинает с использованием статистических методов искать в них другие ключевые слова, которые встречаются вместе с заданными пользователем. С высокой долей вероятности это различные аспекты первоначального пользовательского запроса.

Выявив такие дополнительные ключевые слова, поисковик формирует подмножества-кластеры, в которые попадают страницы с разными выявленными ключевыми словами. В отличие от веб-каталогов и тегирования здесь не участвует человек, все происходит автоматически. Кластеры формируются не заранее, а непосредственно в момент поступления запроса. Поскольку в каждом кластере производится собственное ранжирование, на поверхность, то есть на первую страницу выдачи, получают шанс попасть ссылки, которые при стандартной обработке запроса были бы благополучно зарыты где-нибудь в третьей-четвертой десятке результатов. Кроме того, результаты анализа ссылок в рамках отдельных кластеров используются для последующей сортировки результатов, уточнения позиций сайтов в итоговой выдаче

Конечно, аналогичного эффекта можно добиться и самостоятельно уточнив запрос, добавив к нему дополнительные ключевые слова. Однако для того, чтобы это сделать, такие слова нужно знать. Если мы ищем по новой или незнакомой теме, в нашем поисковом «словаре» таких уточняющих слов может просто не быть. Для того чтобы они появились, понадобится полистать выдачу, открыть какое-то количество страниц, ознакомиться с текстами. Другими словами – потратить свое время. Автоматическая кластеризация как раз и помогает нам сэкономить это время, сразу же предлагая эти варианты и выстраивая свою выдачу для каждого уточненного запроса.

Посмотреть на работу кластерной системы Nigma можно на странице результатов поиска. Самое интересное происходит в боковой панели «Фильтр» — именно здесь выводятся результаты кластеризации. Выглядят они в виде иерархического списка – кластеры могут быть вложенными, если такой уровень уточнения запроса был получен в ходе анализа. Эту панель можно использовать для быстрого уточнения запроса. Работает она как на добавление новых ключевых слов, так и на исключение ненужных, приносящих в выдачу информационный шум.

Если мы щелкаем по ссылке в списке фильтра, то переходим в соответствующий кластер. Если отмечаем кластер «птичкой» — его ссылки получают преимущество при сортировке текущей выдачи. Красный крестик исключает страницы отмеченного кластера из выдачи. Присутствует и расширенный поиск, оснащенный привычным набором инструментов составления запроса с использованием логических операторов.

Кроме этого ударной особенности – метапоиска с кластеризацией, Nigma может предложить немало любопытных дополнительных инструментов. Первый же вспомогательный инструмент, с которым мы сталкиваемся – это автоподсказка в поле поиска. Здесь не просто показываются предложения по дополнению слов, но и сразу же приводятся адреса лучших сайтов по предполагаемому запросу. Нельзя пройти мимо способностей «Нигмы» по исправлению ошибок в запросах – система способна распознать несколько опечаток в слове, набранном в неправильной раскладке.

Собственно в списке выдачи также присутствуют необычные и полезные инструменты. Самый, пожалуй, полезный – автоматическая генерация таблиц на основе найденных на страницах данных. Такую таблицу можно не только посмотреть на странице выдачи, но и скачать в формате CSV.

Кроме прочего, «Нигма» отличается нестандартной подборкой специализированных вертикальных баз. Если поиск изображений практически целиком повторяет результаты Яндекса, не предлагает интересных инструментов и, в общем-то, присутствует, прямо скажем, для галочки, то другие базы заслуживают внимания.

Раздел «Математика» демонстрирует так называемый фактографический поиск. Это значит, что нам выдаются прямые ответы на вопросы, а не ссылки на внешние сайты. В данном случае в качестве запросов выступают математические задачки и уравнения. Надо сказать, что в «Математике» довольно удобно решен ввод различных математических конструкций в одну строку поля запроса: где-то используются стандартные символы, где-то можно просто написать «Логарифм такой-то по такому-то основанию» и система вас поймет.

Полный перечень задач, решаемых «Нигмой» вынесен в отдельный раздел справки поисковика. Выбор, сразу скажу, очень даже неплохой. Но самое забавное – это, конечно же, виртуальная доска на странице выдачи, на которую выводится ход решения введенного уравнения, причем, если вариантов решения несколько, демонстрируются все.

Кроме этого Nigma умеет решать задачки по химии. Принцип работы такой же: записываем в поле поиска химическое выражение или же словами описываем нужную реакцию и получаем ответ. Как и в «Математике», здесь также выводится панель с описанием хода реакции.

База «Книги» устроена попроще. По сути, это поиск по ряду сайтов крупных онлайновых электронных библиотек. Как и в веб-поиске, здесь работает панель фильтров, позволяющая быстро уточнить запрос с помощью кластеров. Инструментов, специализированных именно для поиска книг здесь немного. Мы не можем управлять выбором формата книги, в выдачу нередко попадает шум, относящийся не к текстам собственно книг, а к текстам на страницах сайтов-библиотек. Так что база полезная, но явно не лучшая из доступных в Сети систем поиска электронных книг.

Музыкальный поиск Nigma базируется на опросе известных ресурсов с музыкой, предлагаемой в свободном доступе. Подход Nigma интересен оформлением страницы выдачи. Поскольку индексируются не только имена файлов, но и доступные теги, Nigma умеет собирать разрозненные файлы в альбомы, предлагает фильтры жанров и исполнителей, которые доступны на боковой панели. Есть онлайновый плеер и прямые ссылки на файлы – индексируются только находящиеся в открытом доступе ресурсы.

Относительно недавно Nigma обзавелась собственными базами торрентов и мини-игр. Поиск торрентов решен способом, аналогичным поиску книг и музыки: Nigma индексирует группу открытых трекеров и предлагает в своей выдачи объединенные результаты. Поисковая выдача предоставляется в виде таблицы с привычными для пользователей трекеров сведениями: размером раздачи, количеством сидеров и личеров. Щелчок по ссылке напрямую загружает torrent-файл без перехода на страницу трекера.

База «Мини-игры» работает с открытыми каталогами игрушек. Можно искать по ключевому слову или же воспользоваться каталогом, в котором игрушки распределены по жанрам. Все ссылки в выдаче – прямые, так что скачать игры можно без лишних переходов на проиндексированные «Нигмой» сайты.

 

Никто не прокомментировал материал. Есть мысли?