Как наши читатели ABBYY помогли

21 год назад 13 ноября 2002 в 15:53 1850

Здравствуйте.
Прочитав в 78 номере большое письмо Игоря о FineReader-е, хочу поделиться своим опытом работы с этой программой.
<…>
1. О концах абзацев.
FineReader использует при распознании текстовые блоки, по определению между собой не связанные, поэтому текст внутри них программа рассматривает как отдельные законченные тексты. (Если открыть новый текстовый документ в ворде то там тоже будет в конце стоять символ абзаца.)

Такой подход разработчиков FineReader особенно удобен при распознании отрывочных кусков текста со страниц. Для сращивания колонок я использую следующий простой способ: после распознания пробегаюсь по страницам добавляя в концы текстовых кусков не встречающиеся сочетания символов, отдельно для кусков законченных переносами и целыми словами.

Потом в любом текстовом редакторе (обычно в Hieroglyph) меняю эти наборы с помощью автозамены на пробел или ничего (тогда слова сращиваются). Этот метод удобен в предпечатной подготовке, так как все равно потребуется переверстка. При сохранении полного оформления документа не имеет значения, где обрываются абзацы, ведь надо сохранить полное оформление, но описанный выше метод тоже работает (MSWord).

2. Надо заметить что FineReader это прежде всего OCR программа а не текстовый редактор и тем более не программа верстки, так что не надо от него требовать невозможного.

3. Проблема с не нахождением конца абзаца иногда присутствует, однако лечится заданием большего по ширине текстового блока.

4. С пишущими машинками действительно все сложно. Был случай с пятой версией FineReader когда в большом тексте неуверенно распознавалась буква Е. Однако, при взгляде в оригинал я обнаружил ее полное отсутствие в словах. Программа подняла символ с замятости бумаги литерой!!

Вообще я думаю что качество распознавания с пишущей машинки более зависит от конкретной машинки, а не от FR. Описанная же Игорем проблема встречается как правило при попытке обучения FR, а этот процесс на малых объемах текста не выгоден по соображениям затрат времени.

Проще использовать автозамену, ведь одна и та же буква передается при неправильном распознании одинаковым набором символов.

5. Авто позиционирование страницы можно отключить в настройках сканирования, однако это повлияет на качество и скорость распознавания текста.

6. О хранении пакетов. Занятие странное, удовольствие сомнительное.

Мне надо хранить оригиналы текстов по пол года <…>. Бумага неудобна, тифы громоздки. Беру тифы из пакета и конвертирую в jpeg. FineReader может импортировать картинку для распознания из кучи форматов. Так что и тут надо использовать нужные инструменты, а не хотеть невозможного от OCR программ.

Если же, как у Игоря, отсканирована какая то ценная книга, то лучше сделать PDF конвертировав текст из ворда, или (дабы не мучиться с распознанием, корректурой и прочим) сделав его из тифозников в PM, QX, на худой конец опять ворд. Ведь если понадобится перераспознать то FineReader загрузит и PDF.

Возможно расширение наборов инструментов FineReader-у не повредит, но обратной стороной этого процесса будет увеличение программы самой по себе и как возможные следствия медленная работа, удорожание (и так безумно дорогой для рядового российского пользователя программы) и возможная нестабильность работы.

<…>
P.S.:) Уважаемая редакция Upgrade прошу прощение за допущенные в письме ошибки, циклические повторения, не выровненный по ширине текст, ведь кто из нас этим не страдает.

С уважением, Кривой Гоблин <…>

Спасибо, Кривой Гоблин. Спасибо за письмо, полезные комментарии, и отдельное «сочтемся» от редакции за постскриптум. Через некоторое время также пришел запрос от ABBYY Software House, где разработчики просили переслать полный текст письма и комментарии наших читателей. Ваш комментарий оказался самым полным и точным, и свой ответ Игорю Петрову разработчики строили на основе ваших комментариев. Вот он.

Здравствуйте, редакция Upgrade
Итак, что касается письма нашего пользователя г-на Ивана Петрова, в котором он хочет воздействовать на разработчиков программы ABBYY FineReader. :)))
Мы посмотрели у себя указанные им моменты, потестировали, и вот к чему пришли.

Во-первых, надо сказать, что Гоблин так хорошо и исчерпывающе ответил первому, что, честно говоря, добавлять даже особенно ничего не хочется… :))) Так что мы будем ориентироваться на его письмо и немного его поправлять и дополнять.

Итак, особенно верно замечание Гоблина, что FineReader — это прежде всего OCR-программа, а не текстовый редактор и не программа верстки.

Если по пунктам:
1. По поводу концов абзацев — см. письмо Гоблина. Такой подход к выделению концов абзацев, с одной стороны, продиктован некоторыми технологическими особенностями программы, с другой стороны, мнения об удобстве или неудобстве такого подхода для пользователей расходятся — кому-то это удобно, кому-то нет. Один из методов борьбы с мешающими концами абзацев грамотно описан Гоблином в его письме.

2. Наезд текстовых блоков на рисунки — да, редко, но такое случается, мы над этим работаем, но, тем не менее, нет предела совершенству… :))) Кроме того, часто проблемы с блоками возникают по вине того или иного редактора, куда пользователь экспортирует распознанный документ — например, тот же Word далеко не совершенен. :)))

3. см. письмо Гоблина. Опять же можем сказать, что мы над этой задачей работаем и постараемся ее решить к следующим версиям FineReader.

4. Опция «пишущая машинка», само собой, рассчитана на некую усредненную пишущую машинку. Эта функция может работать лучше или хуже в зависимости от каждой конкретной печатной машинки. В указанном случае, думаю, проблема была именно в пишущей машинке пользователя.

В целом, опция «пишущая машинка» призвана обеспечить повышение качества распознавания на документах определенного вида. Но здесь все слишком индивидуально. Если в отдельных случаях включение этой функции не улучшает качества распознавания — вполне можно обойтись без нее.

При этом, если объемы текста большие, а документ достаточно нестандартный (необычный шрифт, старинная печатная машинка и т. д.), имеет смысл использовать обучение — «натаскать» FineReader на распознавание конкретного документа. Качество распознавания в этом случае значительно повышается.

5. Вопрос с перекосом страницы надо уточнить. Итак, г-н Петров имел в виду, что FineReader в автоматическом режиме исправляет перекос страницы (если страница неправильно отсканирована или криво прошла по факсу) — поворачивает ее на несколько градусов. При этом иногда действительно возникает ситуация (если, например, перекос страницы был задуман для художественного оформления), когда FineReader пытается исправить несуществующий перекос.

В этом случае картинки на странице могут быть при экспорте повернуты на несколько градусов (на угол исправления перекоса). Сразу заметим, что на качестве распознавания текста это никак не сказывается. При этом хочется еще раз напомнить, что FineReader — все-таки программа распознавания, и от нее нельзя требовать невозможного. 🙂

Функция исправления перекоса страницы призвана улучшить качество распознавания, так как текст с перекосом, само собой, распознается гораздо хуже. Судя по отзывам огромного количества пользователей, эта функция со своей задачей справляется.

Что же касается того, как ответил этот вопрос Гоблин — то это, пожалуй, единственный момент, в котором он ошибся: он спутал исправление перекоса с автопозиционированием страницы. FineReader умеет определять ориентацию страницы (если она отсканирована вверх ногами или боком) и переворачивать ее как надо. Вот эта функция действительно отключаема — в меню есть такая опция.

6. Теперь вопрос, который вызвал наибольшее возмущение г-на Петрова — формат хранения пакета в FineReader. Во-первых, сразу надо оговориться, что FineReader использует свой внутренний формат, который называется TIF, и этот формат не надо путать с обычным TIF. Это совершенно разные вещи. 🙂
Теперь о сути вопроса.

Действительно, в пятой версии «Файна» пакет хранился в сжатом «тифе». Это отрицательно сказывалось на качестве распознавания пакета — ведь при сжатии, так или иначе, теряется качество изображения. Поэтому в шестой версии пакет хранится в обычном «тифе», несжатом. С одной стороны, это увеличивает размер пакета (в первую очередь на цветных и серых изображениях), с другой стороны, обеспечивает заметно лучшее качество распознавания.

И мы действительно не собираемся возвращать хранение пакетов в сжатом «тифе», так как для подавляющего большинства наших пользователей основным критерием качества программы является качество распознавания, ради чего мы и изменили параметры хранения пакета в FineReader.

Тем паче, что, как совершенно правильно отметил Гоблин в своем письме, отсканированные изображения лучше хранить не в пакете, а в обычном графическом формате типа JPEG или в PDF — FineReader без труда их при необходимости перераспознает. При этом экономится место на диске. Изначально пакет в FineReader не предназначен для длительного хранения изображений.

Существуют гораздо более компактные форматы, позволяющие сохранять изображения практически без потери качества. Еще один вариант — сохранить пакет в черно-белом формате (в меню FineReader есть такая опция) — это также уменьшит размеры файлов.

Ну и, конечно же, мы не заключали никакого соглашения с производителями винчестеров… :))))

С уважением, группа разработчиков FineReader

Алена Приказчикова

Иван Петров

Никто не прокомментировал материал. Есть мысли?

Как наши читатели ABBYY помогли

Отменить ответ