16 лет назад 14 января 2008 в 12:48 3288

Для перевода сложного, комплексного вопроса в подходящий набор ключевых слов иногда приходится здорово поломать голову. Вот если бы поисковик мог давать прямые ответы! Возрадуемся: такие поисковые машины уже существуют, и называются они «семантическими» или же «поисковиками с обработкой запросов на естественном языке». Отрадно отметить, что русскоязычный поиск не собирается плестись в хвосте прогресса. Героями данного обзора являются именно российские поисковики, работающие на основе данных технологий.

Первым делом давайте в общих чертах разберемся, как работает поисковая машина, способная понимать прямые вопросы, заданные нормальным человеческим языком, и выдавать на них осмысленные ответы. На словах техническая реализация такого поиска звучит достаточно просто. Нужно взять заданную пользователем фразу, автоматически выделить из нее ключевые понятия, определить их взаимоотношения, отбросить информационный шум, то есть слова, не несущие смысловой нагрузки, а после этого «скормить» полученный образ более-менее стандартному алгоритму поиска по базе проиндексированных документов.

Подобные поисковики обладают некоторыми особенностями и в демонстрации готовых результатов. Учитывая специфическую задачу поиска, системе недостаточно просто показать список релевантных запросу ссылок. Список результатов должен состоять из текстовых фрагментов, извлеченных из проиндексированных веб-страниц и предлагающих прямые ответы на заданный пользователем вопрос. Другими словами, здесь в первую очередь  реализуется так называемый фактографический поиск.

На этом мы закончим теоретическую часть и перейдем к обзору современных семантических машин, работающих с запросами на русском языке. Мы не только рассмотрим характеристики и особенности таких поисковиков, но и проверим каждый из них в действии, а также попытаемся выяснить, готовы ли они для повседневного использования и какими преимуществами они обладают по сравнению с обычными машинами.

Dialogus


Система Dialogus (http://www.dialogus.ru/) создана людьми, уже отметившимися разработкой замечательного переключателя раскладок Punto Switcher и загадочно-дзэновского поисковика Punto Search. В настоящее время Dialogus находится в  стадии бета-тестирования.

Интерфейс ресурса разделен на две главные зоны: рабочую область, содержащую основной список результатов, и боковую вспомогательную колонку. В ней выводятся запросы, поступившие в систему от других пользователей и тематически похожие на заданный вами, а также, что особенно интересно, картинки, подходящие по мнению поисковика под интересующую вас тему.
Интересная особенность Dialogus заключается в том, что машина с помощью флэш-ролика показывает процесс обработки заданного вами вопроса в режиме реального времени. Пусть это и не несет практической нагрузки, однако любопытно знать, что запрос проходит фазы разбора и формализации, нормализации терминов, синтаксического и морфологического анализа, предварительного поиска в базе самой системы и в Сети, нахождения стоп-слов и собственно выдачи текстового ответа.

Результаты Dialogus представляют собой краткие текстовые выдержки, в которых по мнению системы находится ответ на заданный вопрос. Каждый фрагмент сопровождается кнопками, позволяющими просмотреть текст более подробно, а также увидеть графическую миниатюру исходной веб-страницы.

На сервисе можно зарегистрироваться, после чего вам предоставляется возможность самостоятельно ответить на какой-либо вопрос, сопроводив свой текст ссылкой на интернет-источник. Кроме того, каждому полученному ответу вы сможете присваивать рейтинг, который будет учитываться при доработке алгоритмов системы. В качестве дополнительного бонуса сервис будет хранить список из десяти ваших недавних запросов и выводить его в боковой колонке своего интерфейса.

Stocona Global Search


Фирма «Стокона» существует с 2001 года и занимается разработками в области искусственного интеллекта. Один из ее продуктов – система интернет-поиска Stocona Global Search (www.stocona.ru/services/globalsearch.aspx), которая использует семантические технологии разбора запроса.

Данная поисковая машина предлагает три режима поиска: «Новостной поиск», «Мета-поиск» и «Синтаксический анализ». Если первый ничего особенного собой не представляет, то два оставшихся режима весьма любопытны. «Мета-поиск» использует в работе ведущие русскоязычные поисковики: «Яndex», Google и Rambler. В данном режиме работает алгоритм семантического разбора запроса на естественном языке.

Система поддерживает 14 типов вопросов – в основном простые, направленные на выяснение конкретных фактов или свойств объектов. Stocona автоматически выбирает в заданном вопросе ключевые понятия, учитывает их различные морфологические формы, разбирает аббревиатуры, а также пытается подобрать однокоренные слова и близкие синонимы. Семантика принимается во внимание и на этапе сортировки найденных ссылок при определении их релевантности запросу.

Результаты выводятся в виде отсортированного по релевантности списка, содержащего выдержки из текста проиндексированных веб-страниц, на которых подсвечиваются ключевые понятия из вашего запроса, а также дополнительные слова, которые система нашла и учла в ходе поиска. Каждый текстовый фрагмент сопровождается линком на оригинальную веб-страницу. Поскольку интернет-сервис Stocona Search использует индексные базы других поисковых машин, рядом с каждой ссылкой выводится название нашедшего ее поисковика.

В режиме «Синтаксический анализ» нам предлагают вписать в поле поиска любое предложение на русском или английском языке, а система проводит его полный синтаксический разбор, с выделением членов предложения и определением грамматических характеристик каждого слова. Прямого отношения к интернет-поиску данная функция не имеет, однако она весьма любопытна и позволяет слегка заглянуть за кулисы Stocona, поскольку аналогичный механизм применяется поисковиком при разборе реального запроса.

AskNet


Система AskNet (http://www.asknet.ru/) в определенной степени является наследницей Stocona Global Search. Дело в том, что ее авторы в свое время участвовали в создании Stocona, поэтому в базовых положениях работы данные проекты весьма схожи.

При поступлении запроса AskNet определяет наиболее вероятный объект поиска, учитывая синонимы, обрабатывая аббревиатуры и словесные записи цифр (например даты). Свободно сформулированное вопросительное предложение будет корректно разобрано системой только в том случае, если в нем содержится не более двух сказуемых или трех других однородных членов. Вопрос также должен быть грамматически верным и синтаксически согласованным. В принципе, AskNet может обработать и предложение с ошибками, однако ждать в таком случае достойного результата не стоит. Заметим, что эта система, как, в общем-то, и другие машины, включенные в настоящий обзор, не проверяет орфографию в запросе и не обладает способностью формулировать ответы на основе логической комбинации данных. Ответ будет выдан, только если соответствующая информация в какой-то форме прописана в базе проиндексированных текстов.

AskNet, как и Stocona, лучше всего понимает только определенный набор типов вопросов. Перечень поддерживаемых в настоящее время конструкций на русском и английском языках подробно разобран в «Справке» проекта. Если система не сможет обработать ваш запрос с учетом семантики, поиск будет проведен в обычном режиме – только по ключевым понятиям.

Семантические технологии в AskNet также работают на этапе формирования ответа – связи между словами в поисковой фразе учитываются при сортировке результатов. Ответы представлены традиционным списком линков, сопровождаемых краткой выдержкой из текста найденной веб-страницы, на которой красным цветом выделяются ключевые понятия вашего запроса, а зеленым – слова, сформулированные системой на основе семантической обработки. Оригинальный документ можно просмотреть, не покидая сервиса, – достаточно щелкнуть по ссылке «Просмотр», расположенной возле каждой позиции. Она открывает на странице результатов фрейм, в который и загружается источник.

Тестируем
Познакомившись с возможностями поисковиков, очень трудно удержаться от соблазна проверить их в реальном деле и сравнить их «улов» с результатами обычных «универсалов». Методика тестирования не претендует на абсолютную полноту и научную строгость: всем системам отправлялись одинаковые вопросы, после чего просматривались первые десять ответов и аннотации к ссылкам, без перехода на найденные веб-страницы. В качестве контрольной группы выступили универсальные поисковики Google и «Яндекс».

Для разминки системам были предложены вопросы: «Сколько спутников у Марса?», «Сколько будет два плюс 2?», «Кто родился четвертого ноября?», «Чем можно склеить полиэтилен?»
Со спутниками Марса лучше всех разобрался AskNet, давший точный ответ в первых четырех позициях выдачи. Dialogus также правильно определил их количество, правда, подбор цитат был весьма своеобразным. Stocona хоть и выдал ссылки на подходящие веб-страницы, прямого ответа в аннотациях не показал. Google и «Яндекс» вразумительно на вопрос не ответили.

Во втором вопросе Stocona и AskNet смесь цифр и словесной записи чисел худо-бедно разобрали, однако прямого ответа не дали. Dialogus позабавил анекдотом про беседу французского министра образования и школьника. «Яндекс» обработал и цифровое, и словесное описание, но вот точного ответа в аннотациях к ссылкам не предоставил. Выгодно отличился Google, показавший правильный результат из встроенного калькулятора на первой же позиции.

С цифрой в дате из третьего вопроса справились только Stocona Search и Google. Результаты других машин были невразумительными.

На вопросе о полиэтилене Dialogus полностью провалился, AskNet и Stocona четко вывели в лидеры клей БФ. «Яндекс» дал такой же ответ на пятой позиции, а вот Google кроме клея вспомнил еще и способы с использованием утюга и скотча, но для этого понадобилось внимательно просмотреть всю страницу выдачи.

Далее была предпринята попытка проверить работу семантических поисковиков на более сложных заданиях, которые не мудрствуя лукаво были взяты на сайте «Кубка Яндекса». Результаты получились грустными. Синтетические вопросы такого уровня, предварительно не обработанные человеком, современным семантическим поисковикам пока явно не по зубам. Справедливости ради заметим, что разработчики рассматриваемых машин чудес нам и не обещали, гарантируя корректную обработку определенных категорий вопросов на естественном языке, и свое слово, в принципе, сдержали. Так что грамотные искатели из плоти и крови при решении сложных интеллектуальных задач пока намного превосходят доступные автоматические средства.

«Пилите, Шура, пилите…»
Итак, чуда не произошло, и с налета заставить работать нынешний семантический поиск на всю катушку не получилось. Однако это не повод списывать весьма перспективную идею в утиль. Для того чтобы получить реальную пользу от таких поисковиков, придется, как обычно, учить матчасть и держать в уме особенности современной реализации подобных машин при составлении собственных запросов. Поэтому, если желаете получить практическую выгоду от их применения, все равно придется конструировать вопросы с оглядкой на их ограниченные возможности. Наилучшим образом такие машины обрабатывают прямые запросы, содержащие более-менее точные указания на область поиска, то есть слова «где», «сколько», «когда» и другие подобные.

Стоит признать, что потенциал у таких систем действительно большой, однако в настоящее время реализованы далеко не все возможные семантические технологии. По сути, сейчас они только помогают выделить ключевые слова из свободно построенных фраз и подобрать дополнительные словоформы для составления корректного поискового запроса. Нет сомнений, что данное направление интернет-поиска будет развиваться. Будем надеяться, что в будущем мы все-таки дождемся полноценных семантических поисковых систем.

2 комментария

Интересная статья. Есть неточности. На вопрос Кто родился четвертого ноября? AskNet точно ответил списком имен. Смотри здесь — http://search.asknet.ru/index_ngs.aspx?ngs_q=%D0%9A%D1%82%D0%BE%20%D1%80%D0%BE%D0%B4%D0%B8%D0%BB%D1%81%D1%8F%20%D1%87%D0%B5%D1%82%D0%B2%D0%B5%D1%80%D1%82%D0%BE%D0%B3%D0%BE%20%D0%BD%D0%BE%D1%8F%D0%B1%D1%80%D1%8F
Кроме того, результаты тестирования AskNet имеются здесь — http://asknet.ru/technology.htm