11 лет назад 28 июля 2010 в 16:12 678

Вы даже не представляете, сколько определений понятия «электронная книга» сейчас можно встретить. Если же не вдаваться в теоретические изыскания, а рассматривать электронные книги с практической точки зрения, то важнейшей характеристикой станет их формат. В данной статье мы не будем претендовать на полный разбор всех форматов электронных книг, а попробуем обобщить сведения о чаще всего встречающихся, скажем так, в «естественных природных условиях» – в интернете.

Текстовые форматы

Все реже, но еще можно встретить книги, выложенные в простейшем текстовом формате TXT. Преимуществ у него немного: это малый размер файла, что было особенно актуально при «модемном» интернете, и совместимость практически с любой специализированной программой.

Куда более широко распространены книги в HTML. Немало сетевых библиотек избирают именно его в качестве своего основного формата. HTML позволяет сверстать книгу в более удобном для чтения виде, внедрить иллюстрации и сделать массу других полезных вещей. Преимущества данного формата для автора – относительная несложность изготовления e-книжки, возможность представлять ее по частям, отсутствие необходимости что-либо скачивать и даже отвлекаться от серфинга, а также железобетонная уверенность в совместимости с программным обеспечением у пользователей, ибо если уж читатель зашел на онлайновый ресурс, значит, браузер у него точно есть.

Общим и не таким явным для многих бонусом названных форматов является легкость индексирования и последующего поиска по тексту книги. Минусы у них тоже схожи. Читателю также, скорее всего, придется готовить книги для удобной работы с ними: конвертировать TXT во что-либо более симпатичное и приятное глазу, склеивать куски HTML-книг, зачастую разбиваемых на десяток-другой отдельных страниц, возиться со ссылками и иллюстрациями. Неслучайно сейчас можно найти программы, облегчающие и автоматизирующие данный процесс. Заметим, что чрезмерное увлечение авторов публикаций возможностями оформления, предоставляемыми HTML, и сопутствующими веб-технологиями может сыграть злую шутку и затруднить процесс обработки загруженной книги. Так что, если вы предполагаете, что ваше произведение будут читать не только в онлайне, учитывайте данный нюанс.

«Офисные» форматы
С точки зрения автора, такие форматы могут представляться довольно выгодным решением. Поскольку документ и так составляется в том или ином текстовом редакторе, нет ничего проще его сохранения средствами этого же редактора. Если вы выбрали данный способ распространения своего произведения, то, по крайней мере, верстайте его аккуратно и конвертируйте в максимально более широко распространенный формат.

RTF будет прочитан везде. В силу большой распространенности допустимы форматы, понятные MS Office, правда, помните, что для чтения файлов новых форматов 2007-го «офиса» владельцам более ранних версий пакета придется ставить конверторы. А вот вероятность того, что ваши будущие читатели влет откроют документы в собственных форматах альтернативных редакторов, стремительно уменьшается по мере роста экзотичности используемых вами офисных решений. Оценивать такую ситуацию можно по-разному, однако считаться с ней, безусловно, приходится.

В данной статье мы не будем претендовать на полный разбор всех форматов электронных книг, а попробуем обобщить сведения о чаще всего встречающихся в «естественных условиях».

Проблем с такими файлами у пользователей может быть достаточно. Многое зависит и от готовившего их человека. Во-первых, файл может банально не открыться из-за отсутствия на компьютере пользователя родного приложения или подходящего конвертора. Далее, мы можем встретиться с «поехавшей» версткой, использованием абзацев вместо разрывов страниц, низким качеством иллюстраций и прочей неудобицей.

Пожалуй, единственное преимущество книг в «офисных» форматах с точки зрения пользователя – это возможность правки и быстрой распечатки документа в привычной даже не самому «продвинутому» юзеру рабочей среде текстового редактора. Неслучайно так распространяются «малые формы»: всевозможные отчеты, пресс-релизы, а также лучшие «друзья» чрезвычайно занятых школьников-студиозусов – рефераты и заготовки шпаргалок. Таким образом, стоит признать данные форматы пригодными только в случае ориентации на последующую печать документа с попутным внесением в него правок.

Скомпилированные форматы
Этим названием мы обозначим группу довольно разношерстных решений, позволяющих собрать книгу в один файл и повысить удобство работы с ней. Начнем с привычного по многочисленным мануалам справочного формата CHM. Он ориентирован на чтение с экрана и обладает рядом полезных дополнительных возможностей. Он очень хорош для справочных изданий (еще бы!) и других книг, в которых важна четкая структура документа и быстрый доступ к нужному разделу. В то же время это не лучший выбор для документов, которые предполагается распечатывать, поскольку возможности верстки страниц здесь весьма и весьма скромные.

С технической точки зрения формат основан все на том же HTML, однако данные здесь хранятся в сжатом виде, а кроме того, предусмотрены встроенные возможности индексации, полнотекстового поиска и структурирования текста. Будучи изначально «майкрософтовским», формат CHM не приносит проблем при просмотре. В Windows средства его чтения входят в стандартный комплект, да и для других платформ написаны соответствующие вьюеры, например xCHM.

Особняком в данной группе стоят форматы, которые в прямом смысле слова позволяют скомпилировать текст книги в исполняемый файл. Как правило, они используются в случаях, когда необходимо защитить содержимое издания от несанкционированного просмотра, изменения или копирования. Удобство таких книг – в отсутствии необходимости поиска средства их открытия. Главный минус – большие проблемы с кроссплатформенностью и совместимостью.

FictionBook
Основная беда текстовых форматов – проблема совместимости с различными устройствами. То, что хорошо воспринимается на относительно большом экране десктопа или ноутбука, на небольшом мобильном гаджете превращается в источник мучений. Справедливо и обратное утверждение. Открытый формат FictionBook стал попыткой создания универсального средства подготовки электронных книг, независимого от платформы, на которой его будут читать пользователи. В настоящее время его поддерживают несколько крупных российских сетевых библиотек. «Читалки» FictionBook доступны для ряда настольных и мобильных платформ. Поддержкой FictionBook обладают и ряд гаджетов для чтения электронных книг. Текущая версия формата – FB2.

FictionBook изначально ориентирован на текстовые издания и построен на основе языка XML. Круг разработчиков у него невелик, значительную роль в развитии играет сообщество энтузиастов. Как и положено XML-формату, FictionBook предлагает набор тегов, с помощью которых можно однозначно описать различные элементы книги. Такой подход, в частности, способствует автоматизации дальнейшей работы с книгами в электронных библиотеках, поскольку позволяет четко идентифицировать по соответствующим тегам автора, заглавие и другие сведения о книге.

FictionBook предоставляет неплохие возможности работы со структурой книги. Здесь можно четко выделить главы, разделы и другие значимые элементы текста. В то же время файл FictionBook не содержит информации о внешнем виде книги – это полностью отдается на откуп программе просмотра. Кроме собственно текста и разметки в FictionBook можно интегрировать и файлы других форматов, например изображения. Любопытно, что неспешно разрабатываемый формат FB3 предусматривает хранение отдельных элементов книги не в XML-файле, а в общем ZIP-контейнере.

Таким образом, FictionBook хорош для изначально создаваемых в электронном виде произведений, а также для изданий, в которых неважна сложная верстка. Для работы с данным форматом существует достаточное количество программ и конверторов.

ePub
Формат ePub также построен на основе XML и призван решить проблемы совместимости электронных книг с различными устройствами чтения. В отличие от FB, он поддерживается довольно представительной международной организацией IDPF (International Digital Publishing Forum). Список ее участников внушает. Там есть и айтишные корпорации (Adobe и Sony), и множество крупных издательств, в том числе и хорошо знакомое компьютерной братии O’Reilly Media. В то же время нельзя не заметить, что в массовых сетевых библиотеках он еще только набирает популярность.

Формат базируется сразу на трех стандартах, разработанных IDPF, описывающих структуру ePub-документа, а также требования к его сжатию и файлу-контейнеру. Заметим, что ePub является открытым и построен только на основе других оупенсорсных форматов, что обеспечивает неплохую уверенность в отсутствии претензий со стороны держателей патентов и защищает от попыток сделать его закрытым. Сейчас доступен уже довольно неплохой набор программ, умеющих читать ePub на различных настольных и мобильных платформах.

Кроме стандартной для основанных на XML форматов реализации работы со структурой книг ePub позволяет использовать свои шрифты (что полезно, например, при наличии в документе формул), включать в издание графику, в том числе векторную, а также реализует ряд других полезных функций.

Графические форматы
Такие форматы используются преимущественно при оцифровке печатных изданий. Журнал или книга сканируется, после чего производится (или не производится) дополнительная обработка и конвертирование полученных сканов. В данном случае у изготовителя электронной версии книги не болит голова по поводу верстки своего продукта – остается только по возможности сохранить внешний вид готового издания.

В простейшем случае отсканированные страницы будут просто сохранены в JPEG (редко, когда есть потребность в максимально высоком качестве – TIFF, в особо запущенных случаях – BMP) и выложены в виде своеобразной галереи на веб-странице. В таком виде можно встретить инструкции, комиксы и другие небольшие издания. Иногда страницы книг в такой форме даже выкладываются на обычных универсальных фотохостингах. Данный способ удобен тем, что можно быстро просмотреть только нужные страницы, не скачивая книгу целиком. Не стоит считать, что такие книжки – удел ленивых «частников». Концептуально похожий подход, правда с большим количеством дополнительных опций, принят, например, на некоторых сайтах электронных журналов.

Если же предполагается, что читателю книга нужна полностью, такие сканы часто складываются в папку и архивируются для большего удобства передачи информации. Пользователю не понадобится качать каждую страницу, он сможет забрать все произведение одним файлом. Преимущества для авторов цифровых копий таких книг очевидны: затраты времени на их создание минимальны, а сам процесс легко автоматизируются.

Есть свои удобства и у пользователей таких книг. Прежде всего, замечательно и гарантированно сохраняется внешний вид страниц, что немаловажно при сложной верстке или большом количестве иллюстраций. Помимо этого сами изображения передаются с высоким качеством. Если книга содержит какие-либо важные графические вкладки, схемы или чертежи, их можно сканировать в повышенном разрешении и сохранять в подходящем графическом формате практически без потери качества, например в том же TIFF. В случае схем и «чертежной» графики качественней, пожалуй, будут только векторные форматы.

Просматривать электронные книги в графических форматах можно в любых соответствующих программах-вьюерах. Однако про поиск по тексту такой книги, да и про другие дополнительные возможности, можно забыть, что значительно затрудняет последующую работу с библиотекой. Есть у них и другие серьезные недостатки. Читать книги с большим количеством текста откровенно неудобно. Отсканированная с приличным разрешением веб-страница без масштабирования не влезет ни в один монитор, поэтому либо придется мириться с артефактами сжатия в программе просмотра, либо активно использовать как вертикальную, так и горизонтальную прокрутку. Картину дополняют перекошенные при сканировании страницы, а также искажения у корешка книги при ее плохом прижатии к стеклу сканера.

DjVu
Формат «дежавю» является попыткой создать средство удобной работы с электронными архивами отсканированных документов. В силу такого специфического назначения DjVu обладает рядом весьма полезных особенностей.

Первая из них – это интеллектуальная обработка исходных отсканированных материалов. Базовая посылка разработчиков DjVu заключается в том, что для качественного представления различных типов отсканированного контента (текстовых блоков, черно-белых схем, полноцветных иллюстраций и так далее) необходимы различная степень качества и свои алгоритмы сжатия. При действии «по площадям» – то есть одним алгоритмом по всей странице, как это делают, например, алгоритмы JPEG, PNG или TIFF, – не достигается максимальная эффективность: либо страдает качество картинки, либо приходится мириться с увеличенным размером файла.

В отличие от них, алгоритм DjVu пытается разделить обрабатываемую страницу на ряд слоев с различным типом контента и применять к этим слоям собственные, максимально подходящие в данном конкретном случае, способы сжатия и представления изображений. В результате, например, простой текст можно «вычистить» от всех фоновых шумов и сохранить в черно-белом формате, достигнув максимальной четкости и серьезно сэкономив на размере файла.

Фон страницы также можно сжать максимально, «убив» лишнюю информацию и оставив только характеристики так называемых опорных точек. А вот к иллюстрациям можно отнестись лояльней и сохранить их в более высоком качестве. Вообще, алгоритмы DjVu довольно изобретательны и отличаются действительно высокой эффективностью. В результате достигается удобный компромисс между качеством издания, объемом файла и временем, необходимым для изготовления электронной книги.

Вторая особенность DjVu является логичным итогом применения названных выше технологий: файлы книг в данном формате очень компактны, что немаловажно при распространении их в Сети. Мощные алгоритмы сжатия позволяют запаковать средних размеров журнал в документ размером буквально в пару мегабайт. Неслучайно в Сети можно найти немало полезных архивов старой периодики именно в формате DjVu.
Наконец, в DjVu реализовано несколько полезных функций, срабатывающих при онлайновом просмотре произведения, без скачивания. Дело в том, что такой файл загружается постепенно, причем сначала в более низком качестве. Это дает возможность пользователю быстро оценить его полезность и либо продолжить его закачивать, либо отказаться и сэкономить трафик и время.

Заметим, что DjVu – это не просто «склейка» и «соковыжималка» для картинок. Часто забывают, что в такие файлы может быть внедрен и прошедший распознавание текстовый слой, что позволяет реализовать тот же полнотекстовый поиск по книге, не поступившись ее внешним видом. Правда, в «полевых» условиях сетевых библиотек такие файлы встречаются далеко не так часто, как хотелось бы.

Недостатки формата DjVu, как это часто бывает в нашем подлунном мире, являются продолжением его достоинств. Как мы уже знаем, в нем есть возможность довольно тонкой настройки параметров сжатия. К сожалению, авторы электронных версий изданий в погоне за компактностью (а возможности формата прямо-таки провоцируют на такие попытки) зачастую теряют чувство меры, перегибают палку, и в результате качество изображений в документе превращается в нечто, находящееся за гранью добра и зла: мощные алгоритмы сжатия делают из иллюстраций и схем цветные кляксы. А ведь избежать подобного непотребства совсем просто – достаточно просмотреть произведение перед упаковкой и подумать, что потенциальным читателям будет в нем интересно. Благо примеры корректно сделанных DjVu-версий различных изданий, в том числе иллюстрированных, можно встретить достаточно часто.

Наконец, DjVu предназначен только для чтения, поэтому для внесения правок в документ понадобится графический редактор, для получения текста – внешний OCR-пакет, а для выполнения всех этих работ – заметное количество времени. Так что еще раз напомним: данный формат хорош именно для архивирования электронных версий «бумажных» изданий. Для других задач нужны другие форматы.

Portable Document Format
Разработанный Adobe формат PDF отличается завидной универсальностью: в нем сохраняют как изначально электронные издания, так и результаты оцифровки «бумажных» книг. Изначально он предназначался для профессиональной полиграфии, даже средства просмотра были платными, однако затем Adobe взяла курс на широкое распространение PDF, в чем на сегодняшний день немало преуспела – в 2008-м формат был стандартизирован ISO. PDF является кроссплатформенным форматом. Средства для его чтения и редактирования сейчас доступны для всех мало-мальски распространенных компьютерных платформ. Его чтение возможно и на большом числе мобильных устройств.

Формат PDF обладает хорошим спектром возможностей для работы как с дизайном страницы, так и с логической структурой документа. Он позволяет управлять возможностями доступа к содержимому документа, запрещать его копирование или печать. Поддерживается шифрование с помощью 256-битного AES.

Со временем PDF обзавелся и встроенной поддержкой программирования. Среди забавных реализаций данной опции вспоминается виденная мной как-то в файле PDF вполне рабочая игра «Морской бой». В массовом применении, как это часто водится, можно встретить реализацию только относительно небольшого процента возможностей формата.

Начнем с того, что значительная часть книг-»оцифровок» представляет собой просто собранные в один PDF-файл растровые изображения отсканированных страниц. Данный подход, с одной стороны, упрощает передачу и последующее хранение книг, поскольку большинство программ каталогизации для электронных библиотек не умеют корректно работать с папками файлов, в отличие от широко распространенного PDF.

Без особых проблем в неприкосновенности сохраняется и внешний вид страниц издания. Иногда задействуются и возможности PDF по структурированию документа – в подобной книге создаются закладки на отдельные разделы. С другой стороны, не редкость пониженное разрешение таких собранных в PDF изображений, а также все названные нами выше артефакты некачественного или неаккуратного сканирования, исправление которых в данном случае потребует гораздо больше усилий.

Меньший процент «самодельных» оцифровок состоят из распознанного текста и отдельных иллюстраций, заверстанных в PDF. Такие книги более компактны, позволяют автоматически индексировать их содержимое, а также широко использовать опции структурирования документа. Правда, качество иллюстраций все также может оказаться на грани приемлемого, да и в распознанном тексте могут быть ошибки – результат вычитывается далеко не всегда.

Предусмотренные форматом PDF возможности совмещения графических изображений страниц и OCR-слоя в полевых условиях сетевых библиотек встречаются еще реже, хотя результаты могут быть весьма удобными.

Венцом технологии являются изначально созданные в PDF электронные издания. Богатые возможности верстки, достаточно качественные растровые иллюстрации, векторные схемы идеального внешнего вида, рабочие указатели и ссылки – если автор и верстальщик электронного издания постараются, все это значительно повышает удобство работы пользователя с такой книгой. UP

Никто не прокомментировал материал. Есть мысли?