Издательский дом ООО "Гейм Лэнд"СПЕЦВЫПУСК ЖУРНАЛА ХАКЕР #44, ИЮЛЬ 2004 г.

Размер не имеет значения

Косякин Антон

Спецвыпуск Xakep, номер #044, стр. 044-010-6


Применяя это к MPEG-кодировщику, можно сказать, что его базовая структура основана на структуре perception-based-кодека (кодека, основанного на восприятии, когда используется акустическое скрытие). На первом шаге аудиосигнал преобразуется в спектральные компоненты посредством аналитического банка фильтров. MPEG Layer-I & II используют субдиапазонный, Layer-III - смешанный. Каждая спектральная компонента квантуется и кодируется, сохраняя квантование шума ниже уровня скрытия. Количество квантующих бит берется из динамического распределения бит, контролируемого психоакустический моделью. Вся информация, необходимая для работы алгоритма, складывается в один битовый поток, вместе с заголовком и вспомогательными данными.

Психоакустическая модель подсчитывает коэффициент сигнал-маска (signal-to-mask, STR), беря во внимание кратковременный (short-term) спектр кодируемого блока и информацию о скрытии шумами. На самом деле она нужна кодеру для того, чтобы сделать декодер проще. Стандарт MPEG описывает декодер и значение закодированного битового потока, давая место для эволюции и улучшения кодировщика. Поэтому могут использоваться любые психоакустические модели, от самых простых до очень сложных, основанные на качестве и осуществимости условий. Информация о кратковременном спектре также может быть получена различными путями. Например, как точная оценка основанного на FFT (быстрое преобразование Фурье) спектрального анализа входных аудиосэмплов. И все эти кодировщики будут полностью совместимы с любым MPEG-1 аудиодекодером.

Outro

Я постарался максимально подробно рассказать тебе о базовых алгоритмах сжатия звука. Но тема настолько широка, что для полного ее раскрытия потребовалось бы еще с десяток таких же статей. Так что если тема тебя заинтересовала – более подробную информацию ищи сам.

Любимый нами формат mp3 таит в себе одну подставу: он запатентован. Раньше мы должны были платить только за создание mp3, но с недавнего времени нужно платить и за их прослушивание :(. Даешь ogg!

Следует различать речь и аудиосигналы: для речи существует модель выработки речи, благодаря которой ее можно эффективно закодировать, чего нельзя сказать об "обычных" аудиосигналах.

www.compression.ru/download/sources/audio/short23a.rar - пример lossless-кодека

www.compression.ru/download/sources/audio/faac1231.rar - пример lossy-кодека

Большое спасибо просторам compression.ru, algolist.manual.ru и terralab.ru за ценную информацию, которую я там почерпнул :-).

Назад на стр. 044-010-5  Содержание