Визуальные эксперименты ALIPR

14 лет назад 19 мая 2010 в 16:30 2279

Современные технологии интернет-поиска изображений можно объединить в три группы по признаку способа индексирования. Каждый из способов обладает своими достоинствами и недостатками. Недостатки, как водится, являются оборотной стороной достоинств.

Первая группа технологий – это универсальный поиск по косвенным признакам, когда для описания изображений используют имя файла, всевозможные теги HTML-разметки документа и анализ текста самой веб-страницы. Такой режим можно увидеть на универсальных интернет-поисковиках. С одной стороны, он наименее требователен к ресурсам, с другой – грешит многочисленными неточностями и ошибками.

Второй вариант – включение в процесс индексирования человека. Это технологии ручного тегирования и всевозможные «фолксономии», применяемые на многочисленных фотосервисах. Преимущества такого способа – повышенная точность, поскольку кому, как не автору, знать, что изображено на его картинке. Минусы – большой разброс качества индексирования. Нередко подборки из сотни фотоснимков огулом описываются одним-двумя тегами, что немедленно отправляет эффективность последующего поиска в район нулевой отметки.

Третья группа технологий – контентный поиск изображений, он основывается на автоматическом распознавании образов и работает непосредственно с характеристиками самого изображения: цветом, композицией, образами объектов. За счет использования достаточно сложных алгоритмов такие поисковики способны решать задачи, которые не по зубам традиционным сервисам. Среди подобных продуктов в настоящее время преобладают экспериментальные. Целую группу свежих и весьма любопытных служб в данной области предложил некоммерческий проект ALIPR, поддерживаемый Пенсильванским университетом (США).

Тегирование изображений
Основой проекта ALIPR является одноименная система автоматического тегирования изображений. Авторы системы – не новички в сфере контентного анализа и поиска картинок. Они в свое время занимались «семейными» веб-фильтрами, а также интернет-поисковиком Simplicity. Поисковик ALIPR был запущен в 2006 году. С тех пор он неоднократно дорабатывался.

В отличие от многих проектов визуального поиска изображений, ALIPR ориентируется на применение старых добрых ключевых слов. Однако список присваиваемых изображениям тегов – так называемый поисковый образ – формируется автоматически и нестандартно: с помощью контентного анализа изображения. В ходе обработки новой картинки система проводит распознавание образов, за которым следует сравнение найденных на фото предметов с уже имеющейся базой тегов. На основе этого сравнения снимок помечается тегами, которые обозначают обнаруженные на нем предметы.

Запрос к ALIPR можно составить несколькими способами. Основной режим поиска – обработка визуальных запросов, т. е. образцов изображений. Картинку можно загрузить со своего компьютера или же взять файл со стороннего сайта. Для этого надо указать URL соответствующего файла в форме ALIPR или просто перетащить в это поле нужную картинку с открытой веб-страницы. Если такого изображения нет в базе ALIPR, юзеру предлагается включить его в индексную базу и помочь системе в его описании. На соответствующей странице выводится список популярных тегов, а также форма внесения собственных. Полученная информация используется для обучения системы.

Страница результатов содержит набор изображений и несколько инструментов уточнения запроса. Каждая предлагаемая миниатюра снабжена двумя ссылками: Related и Similar. В первом случае запускается фильтр, работающий с тегами картинки, и в этот список попадут изображения, описанные схожими тегами.

Во втором случае начинает действовать механизм контентного анализа предложенной картинки, и в перечне найденного демонстрируются изображения со схожей композицией и цветовой гаммой. Необходимо отметить, что качество отбора «визуально близких» изображений у ALIPR весьма достойное. К сожалению, использовать оба фильтра одновременно, то есть искать схожие изображения с одинаковыми ключевыми словами, пока нельзя, а ведь это могло бы стать очень удобным режимом поиска.

В качестве компенсации нам предлагается несколько дополнительных фильтров, которые находятся в заголовке страницы результатов. Первый из них – фильтр оценок. Поскольку ALIPR – это обучаемая система, кнопка оценки релевантности изображения выводится рядом со всеми миниатюрами на странице выдачи. Удачные «попадания» алгоритма можно отметить, проголосовав за них. В меню фильтра можно быстро отобрать изображения с наибольшим количеством голосов или же оцененные недавно.

Любопытен фильтр Emotions, который оперирует тегами, описывающими эмоции, вызываемые у пользователей тем или иным изображением. Поделиться собственными впечатлениями можно с помощью опции Rate Emotions. К огромному сожалению, названные фильтры применяются к базе в целом и не позволяют уточнять тематические запросы.

Поскольку ALIPR хорошо работает с тегами, в системе предусмотрен и привычный режим поиска с помощью текстовых запросов. Здесь, правда, также есть свои особенности. Запросы лучше составлять в виде перечня тегов. Поскольку в ходе тегирования применяются технологии контентного анализа изображений, здесь прекрасно и, что важно, достаточно точно выполняются запросы типа «красные цветы в весеннем саду» или же «самолет на фоне облаков и заката», которые далеко не так хорошо обрабатываются обычными универсальными поисковиками.

Нельзя не отметить, что ALIPR, в отличие от многих сугубо экспериментальных проектов контентного поиска изображений, может похвастаться и успешным практическим внедрением своих инструментов на других сайтах. Так, например, поиск ALIPR используется на нескольких тематических фотохостингах – в частности, на Terragaleria.com и Airliners.net.

Это достаточно крупные ресурсы с миллионами фотоснимков и активным сообществом посетителей, поэтому успешное функционирование ALIPR в довольно напряженных «полевых» условиях выгодно характеризует его алгоритмы. Со временем, когда «матчасть» проекта будет способна воспринять соответствующую нагрузку, разработчики обещают выложить в свободном доступе API, с помощью которого к ALIPR смогут напрямую обращаться другие программы.

Оценка эстетики изображений
Интересна концепция следующего проекта авторов ALIPR – системы ACQUINE (Aesthetic Quality Inference Engine). Это экспериментальная разработка, назначение которой – автоматическая оценка эстетической ценности и привлекательности художественных фоторабот. Задача, согласитесь, весьма амбициозная.

В настоящее время авторы разместили свой сервис в общем доступе только в качестве демонстратора возможностей алгоритма. Дело в том, что это проект некоммерческий, его доступная вычислительная мощность ограниченна, а решение поставленной задачи требует значительных ресурсов, причем действующих в режиме реального времени, которых у девелоперов пока нет.

Основой проекта ALIPR является одноименная система автоматического тегирования изображений. Ее авторы – не новички в сфере контентного анализа.

Данная система разрабатывается с 2005 года, а ее первая интернет-версия появилась весной 2009 года. Как и ALIPR, она принимает в качестве запроса пользовательское изображение. Взаимодействовать с ACQUINE крайне просто. С помощью формы на главной странице сервиса загружаем на него файл со своего компьютера или же указываем ссылку на фото, находящееся на каком-либо веб-сайте, после чего ждем результатов его автоматической оценки.

Подобная оценка имеет численное выражение и измеряется в диапазоне от ноля до ста. В такой шкале 50 приблизительно соответствует типичной, средней по эстетике, но профессиональной по качеству исполнения фотографии. На сегодняшний день в базе проекта хранится порядка 160 000 изображений.

Нетривиальные задачи требуют серьезного отношения, так что, если желаете получить отдачу от ACQUINE, не поленитесь ознакомиться с особенностями сервиса. Не секрет, что людям свойственен субъективизм в оценке художественных произведений. Компьютерная система же старается выдать относительно взвешенную оценку той или иной фотографии. Однако, как специально оговаривают разработчики, полностью избавиться от субъективизма невозможно, поскольку это неотъемлемая часть эстетической оценки. Поэтому даже при работе с компьютерной системой стоит помнить, что у нее тоже может быть «собственное» мнение, которое не обязательно совпадает именно с вашими вкусами.

Для того чтобы не порождать попыток намеренного манипулирования оценками, все авторы, публикующие свои фото, на сервисе анонимны. Разработчики напоминают, что ресурс не предназначен для оценки привлекательности изображенных на снимке людей или предметов, а оценивает общее впечатление от фотографии.

Алгоритмы ACQUINE оптимизированы для манипуляций с полноцветными профессиональными фотоснимками. В принципе, никто не запрещает использовать и другие разновидности визуального контента, однако эффективность системы при этом будет значительно ниже.

Особенно оговаривается то, что ACQUINE не будет работать с рисунками, новостными фото, снимками отдельных предметов крупным планом, а также просто некачественно выполненными и нечеткими фотоснимками. Минимальное разрешение фото, подходящего для анализа, – 600 х 600 пикс. Максимальный размер загружаемого снимка – 2 Мбайт. Если некачественные фотки все-таки попадают в базу сервиса, их периодически удаляют.

Отдельно оговариваются возможные нюансы. Авторы упоминают несколько известных багов. Изображения в низком разрешении иногда могут получать неоправданно высокую оценку. Затрудняют обработку картинок и рамки, добавленные к фотографиям, чаще всего это также проявляется в завышении оценок.

Дополнительных инструментов у сервиса ACQUINE немного. Каждая миниатюра сопровождается значением рейтинга, а также ссылками на оригинальное фото (если снимок был загружен по URL-адресу) и другие работы этого же автора.
На отдельной странице сервиса можно посмотреть статистические графики, которые показывают распределение оценок фотоснимков за последние сутки и все время деятельности сервиса, а также диаграмму, демонстрирующую, как данный снимок оценили разные категории пользователей.

Для попадания в статистику юзер должен загрузить не менее 15 фотоснимков. Заметим, что ACQUINE – достаточно строгий судья: снимков с «отметками» выше 90 баллов в его базе не более трех с половиной процентов. Наиболее часты «посредственные» оценки. В категорию «до 40 баллов» попадает почти 55% присылаемых фотографий. Самая высокая средняя оценка творчества одного автора – 67 баллов.

Иллюстрирование текстов
Не менее оригинальная идея заложена в проекте Story Picturing Engine (SPE). Сервис умеет автоматически иллюстрировать предлагаемые юзерами тексты. Для этого используются результаты работы уже знакомой нам по ALIPR системы автоматического тегирования изображений. Интерфейс SPE предлагает набрать нужный текст в соответствующем поле или же загрузить уже готовый текстовый контент в формате TXT.

Система разрывает текст на отдельные предложения, выделяет в них ключевые слова и в соответствии с ними подбирает изображения из своей базы. Девелоперы предупреждают, что это прототип сервиса, который предназначен для простых текстов. Для многих тематических текстов нужны специфические базы изображений.

Получив такой запрос, система находит картинки, отмеченные подходящими тегами. При этом учитывается не только простое совпадение ключевых слов, но и другие теги, созданные в ходе распознавания изображения. Страница результатов содержит собственно предложенный текст, а также своеобразный «комикс», составленный SPE. Под каждой картинкой выводится список ее тегов. Использованные при обработке запроса теги выделяются жирным шрифтом.

В системе SPE можно настроить количество изображений, требуемых для иллюстрации вашего текста. Здесь можно либо задействовать переключатель Granularity, отвечающий за размер блока текста, которому будет соответствовать одно изображение, либо указать точное количество нужных картинок.

Кроме того, здесь есть строка ввода дополнительных ключевых слов, задав которые можно облегчить системе обработку текста. Географические названия, состоящие из нескольких слов, рекомендуют обязательно писать через дефис (например, Лас-Вегас). В настоящее время система работает только с текстами на английском языке. Поддержка других языков пока не планируется.

Капча нового поколения
Активный интернет-серфер достаточно часто имеет дело с капчами. По сути, это один из простейших примеров теста Тьюринга, который позволяет избежать автоматических регистраций, рассылки спама, DOS-атак и других нежелательных действий на веб-сайтах. Создать хорошую капчу нелегко: если сделать ее простой, есть опасность быстрого взлома.

Однако гораздо чаще встречается другая крайность: даже находящийся в трезвом уме пользователь со зрением «единица» просто не узнает символы за грудой закорючек, черточек и других элементов защиты. Такие капчи весьма раздражают, мешают в работе и годятся разве что в качестве дополнительного средства убеждения зарегистрироваться или приобрести коммерческий аккаунт. ALIPR предлагает собственный подход к решению проблемы.

ALIPR используется на нескольких фотохостингах – в частности, на Terragaleria.com и Airliners.net. Это крупные ресурсы с миллионами фотоснимков.

Прототип системы Imagination Captcha содержит два блока проверки «человечности» посетителя. Первый из них представляет собой коллаж, состоящий из нескольких наложенных друг на друга и частично пересекающихся картинок. Юзеру предлагается навести курсор-перекрестье на центр любого из этих изображений. Если вы попали достаточно близко к центру – принимайте поздравления, вы прошли тест. Если же центр остался в стороне, загрузится новый коллаж.

Второй блок Imagination Captcha также построен на анализе изображений. В окне браузера выводятся две панели. Одна содержит картинку, а вторая – список слов, среди которых есть слово, относящееся к объекту, представленному на изображении. Задача человека сводится к опознанию объекта и выбору правильного слова из списка.

Удобство и скорость работы с такими капчами действительно выше, чем с традиционными. Выигрывает и эргономика – пользователю даже не надо обращаться к клавиатуре, все действия производятся мышью. Что касается надежности алгоритма, то здесь требуются эксперименты. Разработчики вполне уверены в собственном продукте, открыто предлагают всем желающим опробовать своих роботов на Imagination Captcha и рассказать о результатах на сайте проекта. Пока таких сообщений на ресурсе нет. UP

Иван Петров

Никто не прокомментировал материал. Есть мысли?

Визуальные эксперименты ALIPR

Отменить ответ