9 лет назад 23 декабря 2010 в 17:42 345

В качестве одного из аргументов в пользу миграции с Windows на GNU / Linux называется наличие большого числа свободных программ, возможности которых не уступают «виндовым» аналогам. И впрямь, софта для «пингвина» хватает. Кроссплатформенных продуктов – тоже. Убежденные поклонники Windows сетуют на отсутствие толковых приложений для оптического распознавания текста в среде GNU / Linux: увы, ABBYY FineReader (www.abbyy.ru) предлагается только для «Винды» и Mac OS X. Линуксоиды радуются наличию CuneiForm, знакомому с пакетным распознаванием, а виндузятники отвечают: «Нет, брат, шалишь, не тот коленкор». Первые, обидевшись, традиционно клянут проприетарный софт, а вторые, как и раньше, пользуются испытанными продуктами. Когда-то CuneiForm отдавали в обмен на денежные знаки, однако в настоящее время софтина не только бесплатна, но и свободна. Мы решили проверить, насколько результат работы данного продукта отличается от распознавания посредством лицензионной версии ABBYY FineReader 8.0.

В качестве образцов текста мы взяли обычные листы формата А4 с распечатанным текстом на русском и английском языках, таблицей Excel, а также страницу нашего журнала с текстовыми блоками и графикой. Поскольку разработчиками заявлена функция распознавания текста в изображениях, нами был задействован качественный скриншот одной из программ с небольшим количеством текста на русском языке. Функции сканера выполнял видавший виды CanoScan N650U. Для пользователей GNU / Linux сообщаем, что CuneiForm доступен в репозиториях большинства популярных дистрибутивов, но после установки придется общаться с консолью. Графические оболочки YAGF (symmetrica.net/cuneiform-linux/yagf-ru.html) или Cuneiform-Qt (www.altlinux.org/Cuneiform-Qt) инсталлируются отдельно. Об установке бинарного пакета YAGF для Ubuntu доходчиво рассказано на странице adminway.ru/cuneiform-i-yagf-mozhno-ustanovit-iz-repozitoriya.

Для распознавания текста можно либо воспользоваться услугами мастера, либо самостоятельно указать параметры сканирования, разметки, распознавания и экспорта готового результата в MS Word или MS Excel. Программный диалог сканирования позволяет задать формат листа, разрешение (по умолчанию предлагается 75 х 75 dpi) и цветность документа. Кроме этого доступна регулировка значений яркости, контраста и таинственного «порога», но мы не стали изменять предлагаемые величины. Первый досадный момент – неработающий прогресс-бар при сканировании. Вторая засада: приложение не функционирует в Windows 7, поскольку упоминавшийся файл face.ini отсутствует по определению. С обычным текстом, распечатанным на бумаге, CuneiForm справился почти идеально, если абстрагироваться от нескольких нечитаемых букв и адреса e-mail. Выделенный отрывок также был «понят» в лучшем виде. Но и FineReader порой грешит неверно распознанными буквами, правда, почтовый адрес коммерческая программа обработала корректно. После распознавания CuneiForm предлагает либо экспортировать текст в упоминавшиеся офисные приложения, либо приступить к правке посредством встроенного текстового редактора.

Распечатанная таблица Excel, без проблем распознанная FineReader, оказалась не по зубам свободной программе, выдавшей «Ошибку в модуле Rstr.dll» и посоветовавшей обратиться к разработчику. Что ж, спасибо за предложение. Приступим к сканированию журнальной страницы. К результату, выданному на-гора FineReader, претензий почти не возникло: текстовые блоки и графика были на своих местах. Несмотря на включенную опцию поиска изображений и сохранения расположения фрагментов, CuneiForm не счел нужным распознать часть картинок и огорчил большим количеством нечитаемого текста. Распознавание текста на изображении завершилось нулевым результатом, хотя FineReader легко справился с этой задачей. Сложно сказать, под чьим патронажем находится облачный сервис (cunewebform.nntc.nnov.ru), обещающий распознавание текста в загруженных изображениях в формате JPEG и PNG и предлагающий конвертацию результата в формат ODT. Файл, полученный нами, был девственно чист. Наша рекомендация однозначна: при активном нежелании платить за софт CuneiForm может пригодиться исключительно для сканирования обычного текста. UP

  • Программа: CuneiForm 12 Master
  • Тип: система оптического распознавания текста
  • Разработчик: Cognitive Technologies
  • ОС: Windows 2000 / XP, Linux, FreeBSD, Mac OS X
  • Объем дистрибутива: 33,8 Мбайт
  • Русификация интерфейса: есть
  • Адрес: www.cuneiform.ru
Никто не прокомментировал материал. Есть мысли?

В конце 2010 по компьютерным журналам прокатилась рекламная волна ABBYY FineReader- но нигде не делали такую мощную антирекламу альтернативному софту, как в Вашей статье. Но не мне вас судить. Чисто от себя хотелось бы добавить: Cuneiform использую 3 года, на 7-ку(32 и 64-бит) устанавливается в режиме совместимости и, не поверите- даже распознаёт текст(с jpeg-а тоже) и таблицы.