Пояснялка за MP3

7 лет назад 15 февраля 2017 в 0:39 4702

Сегодня об аббревиатуре «MP3» не слышали, пожалуй, лишь наши прабабушки и прадедушки. Все остальные сограждане уже давно оценили преимущества этого воистину всенародного формата аудио…

Действительно, с тех пор как MP3 проник в мобильные телефоны, его популярность стала неоспоримой… Вот только ведь основная масса народа до сих пор не в курсе, как же устроен этот чудо-формат.

«MP3» расшифровывается как MPEG Audio Layer 3 (а вовсе не MPEG-3) и представляет собой потоковый формат цифрового кодирования аудиодорожки (с потерями), использующий компрессию сигнала. Для сохранения высокого качества звучания при существенном сжатии исходного материала применяется довольно сложный алгоритм кодирования, использующий как математические модели компрессии, так и специфику человеческого слуха (так называемая психоакустическая модель). Последняя основана на эффекте маскировки слабого звука одного диапазона частот более громким звуком этого же или соседнего диапазона, а также временным снижением чувствительности человеческого слуха для тихого сигнала, следующего сразу после громкого, и плюс к этому неспособности уха большинства людей различать звуки, по мощности сигнала располагающиеся ниже определенного уровня громкости (для конкретного частотного диапазона существует своя критическая громкость).

Если обобщать, то подобное «адаптивное кодирование» позволяет экономить занимаемое музыкой место благодаря упразднению деталей звучания, наименее значимых для человеческого восприятия. Проще говоря, алгоритм кодирования можно описать так: звуковая дорожка делится на равные по продолжительности блоки данных, именуемые фреймами, каждый из которых кодируется отдельно с индивидуальными параметрами (т. е. для различных фреймов параметры сжатия могут сильно отличаться). Фрейм разбивается на несколько частотных диапазонов. обрабатываемых с учетом вышеупомянутого эффекта маскировки, формируемого сигналом смежных диапазонов и сигналом предшествующего фрейма. Затем в зависимости от полученных результатов кодировщик, пользуясь приемами «психоакустики», удаляет второстепенные звуки на частотах, не воспринимаемых большинством людей (среднестатистическое ухо, как правило, плохо локализует звуки частотой выше 16 кГц). Для остальных данных, разложенных по частотным диапазонам, определяется количество бит. которыми можно пожертвовать. дабы качество звучания заметно не пострадало. После обработки сигнал собирается обратно в единый поток и сжимается по алгоритму Хаффмана (похоже на работу RAR-архиватора).

В конце декодированной последовательности фреймов может располагаться информационный блок, так называемый тег, содержащий данные о проигрываемом треке: его название, имя исполнителя. жанр и проч.

Теперь немного о битрейте и о том, на что он влияет. Степень сжатия аудиоматериапа зависит от волеизъявления пользователя и целиком определяется установленными значениями параметров кодирования и шириной потока данных, или битрейтом Последний представляет собой количество бит информации, передаваемых за секунду, причем по своей сути он никоим образом не связан ни с особенностями строения аудиопотока, ни с количеством звуковых дорожек в нем (т. е. неважно. записано ли моно, стерео, многоканальное аудио и т. п.). Битрейт — это своего рода коэффициент сжатия: чем он больше, тем качественнее звук, и наоборот. Владея информацией о ширине потока и длительности музыкальной композиции. можно легко прикинуть, сколько она будет весить.

Пользовательские утилиты позволяют назначать битрейт в диапазоне от 32 до 320 Кбит/с. Верхняя граница обеспечивает качество звучания оригинального CD-трека (в этом случае используется только итоговое сжатие без психоакустического моделирования), нижняя же — наибольшее сжатие и, соответственно, минимальное качество воспроизводимою звука. Для сравнения: аудио на почти канувших в лету компакт-дисках формата AudioCD характеризуется скоростью потока 1411.2 Кбит/с при частоте дискретизации 44 100 Гц и глубине звучания 16 бит. Т. е. файл MP3, декодированный с битрейтом 320 Кбит/с. обеспечивает более чем четырехкратное сжатие аудиосигнала при сохранении качества сходного с оригинальным. Получается, что чем выше битрейт, тем больше места займет закодированная композиция, и тем выше будет качество сигнала. В конечном счете для каждого битрейта есть своя область применения, а итоговое звучание целиком зависит от используемой аудиоаппаратуры. Если вы не очень придирчивы к качеству звука и пользуетесь компьютерными «Чебурашками» или каким-нибудь бумбоксом, то для прослушивания музыки хватит и 128-192 Кбит/с. Если же предпочитаете дорогую аппаратуру — то никак не меньше 256-320 Кбит/с. Скорость менее 128 Кбиг/с неудобоварима для музыки и гораздо больше подходит для сжатия аудиокниг, вещания потокового радио, записи лекций и т. п.

Интересный момент: не так давно я столкнулся с нелепым утверждением о том. что если МРЗ-файлы записать на болванку в формате AudioCD. тогда они будут звучать несоизмеримо лучше прежнего. Подобные мысли гоните прочь, поскольку кодировщики, прожевывая эталонные диски, отрезают (навсегда!) информационную насыщенность звукового потока, которую при обратном декодировании уже не восстановить. То же самое касается изменения битрейта композиции с меньшего на больший — МРЗ-файл только прибавит в весе, но никак не в качестве.

Вас интересует, что такое CBR, VBR и ABR? Не проблема. Эти аббревиатуры раскрывают названия режимов преобразования аудиосигнала в МРЗ-формат. Достаточно продолжительное время пользовательские кодировщики поддерживали только постоянный битрейт (CBR — Constant BitRate), при котором каждую секунду воспроизведения звука передается одинаковое количество закодированных бит информации, даже во время пауз. Этот режим обеспечивает максимально возможное качество только при использовании высоких битрейтов, но гораздо хуже справляется с динамичной музыкой на низких. Плюс к этому закодированные в CBR файлы занимают больше дискового пространства, поскольку битрейт для всех составляющих фреймов один и тот же. Для увеличения качества сжатия исходного материала и снижения скорости потока данных был изобретен режим переменного битрейта VBR (Variable BitRate). обеспечивающий индивидуальное сжатие каждого фрейма в зависимости от его информационной насыщенности. Проще говоря, тишина кодируется с минимальным битрейтом, а пиковые моменты — с максимальным. Что это дало? Во-первых, за счет фрагментов, не требующих высокого сжатия, существенно уменьшился размер получаемого файла. А во-вторых, возросла эффективность кодирования аудиоданных С динамичной структурой. Есть, правда, и минус… Тихие фрагменты на большой громкости будут звучать некачественно, поскольку здесь кроме «психоакустического» сжатия происходит урезание звуковой информации, которую VBR считает незначительной для восприятия ухом.

Наконец, третий режим, ABR (Average Bit-Rate), являющийся гибридом первых двух, представляет собой усредненный битрейт, варьирующийся в соответствии с заданными параметрами и при этом подстраивающийся под характер звучания композиции. Кодировщик более осторожно меняет различные значения ширины аудиопотока, дабы не «вылететь» за границы пользовательских установок. По звучанию композиции, залитые в режиме ABR, почти такие же, как при использовании CBR, однако намного хуже, чем оные у VBR. Зато в этом режиме юзерам дано больше свободы при выборе битрейта (любое число от 8 до 320 против чисел, кратных 16. в режиме CBR).

На одного или на двоих?

В рамках формата MP3 существует три основных режима кодирования звуковых каналов. Первый, обычное стерео подразумевает независимое кодирование каналов с разделением битрейта пополам — поровну на каждый, т. е. если вы кодируете файл с конечной шириной потока 192 Кбиг/с, то каждому каналу достанется только 96 Кбит/с. Второй — одноканальная обработка, или моно. При кодировании двухканального трека с помощью этого режима все различия между каналами полностью стираются — происходит их объединение в одну дорожку, вещаемую на все громкоговорители одновременно. Плюсов у моно два: файлы весят меньше, чем в случае со стерео, и, поскольку проигрывается всего один канал, общий битрейт оказывается более высоким, а точнее равным изначально заданному (не делится пополам). Правда, этот вариант не очень подойдет для музыки, ибо вся акустическая панорама съедается при объединении каналов.

Ну и третьим вариантом кодирования МРЗ-треков является объединенное стерео (Joint Stereo), при котором звук разводится на средний между каналами и разностный (как бы преобразуется в сумму каналов и в их разность). Причем первый по громкости обычно тише второго, поэтому на него расходуется основная часть битрейта. В результате качество декодированного материала получается более высоким по сравнению с обыкновенным стерео, особенно при использовании низких битрейтов и режима VBR. Некоторые товарищи уверены, что выбор режима Joint Stereo ме слишком удачен для стереосигнала, каналы которого содержат субъективно различный материал, поскольку его применение усредняет каналы, стирая различия между ними. На самом деле, это не так, ведь, несмотря на воспроизведение идентичных частот в определенный момент времени, каждый канал кодируется отдельно.

Иван Петров

Никто не прокомментировал материал. Есть мысли?

Пояснялка за MP3

Отменить ответ