Сжатие аудиоданных

Аудио сжатие данных (часто нечетко упоминаются как аудио сжатия для краткости) является сокращением данных ( « с потерями » алгоритм ) или сжатие данных ( « без потерь » алгоритм).

Аудио сжатия данных описывает специализированные типы сжатия данных для того , чтобы эффективно уменьшить размер цифровых аудио данных . Как и в случае других специализированных типов сжатия данных (особенно сжатия видео и изображений ), определенные свойства соответствующих сигналов используются различными способами для достижения эффекта сжатия .

Этот тип сжатия не следует путать с методом динамического сужения (также называемого динамическим сжатием ), который обычно используется для увеличения более тихих или более низких и громких пассажей в аудиосигнале и не сохраняет никаких данных (см. Также « Компрессор» ) .

Сжатие аудиоданных без потерь

Звук без потерь сжатия данных или короче без потерь сжатия звука является сжатием без потерь аудиоданных, так что генерация упакованных данных, которые дают возможность bitidentische реконструкции выходному сигнала.

Без потерь аудио кодеков отличаются от общих методов сжатия данных в том , что они специально приспособлены к типичной структуре данных , аудиоданных и , следовательно , сжимают его лучше , чем общие методы , такие как Лемпел - Зив основанные алгоритмы Deflate / ZIP и RAR . Степень сжатия, которую можно достичь с помощью современных методов, обычно составляет от 25 до 70 процентов для контента, типичного для аудио компакт-дисков (музыка, 16 бит / 44100 Гц).

использовать

Эти методы используются в студиях звукозаписи, на новых носителях звука, таких как SACD и DVD-Audio, а также все чаще и в частных музыкальных архивах для слушателей музыки, заботящихся о качестве, которые хотят избежать потерь поколения , например . Кроме того, многие методы сжатия данных из аудиосектора также представляют интерес для других сигналов, таких как биологические данные, медицинские кривые или сейсмические данные.

Проблема

Большинство звукозаписей - это звуки, записанные из реального мира; такие данные сложно сжать. Подобно тому, как фотографии не могут быть сжаты так же, как изображения, сгенерированные компьютером, хотя звуковые последовательности, генерируемые компьютером, также могут содержать очень сложные формы волны, которые трудно уменьшить с помощью многих алгоритмов сжатия.

Кроме того, значения аудиосэмплов меняются очень быстро, и редко встречаются последовательности одних и тех же байтов, поэтому общие алгоритмы сжатия данных не работают.

Найдите более экономичные представительства

Природу представления звуковых волн в формате ИКМ обычно трудно упростить без преобразования с неизбежными потерями в частотные последовательности, подобные тем, которые имеют место в человеческом ухе.

В случае аудиоданных вы можете

  • Сходства между (стерео) каналами и
  • Зависимости между последовательными образцами (через де- корреляцию ) , а затем
  • Энтропия отсчетов остаточного сигнала

эксплуатироваться.

технология

Канальная связь

Соединяя каналы, можно использовать зависимости между каналами. Описывая канал через отличие от существующего или нового центрального канала, можно избежать повторного описания общего содержания.

Разностные сигналы могут либо сохраняться без потерь, квантоваться и кодироваться соответственно с потерями, либо, например, также могут сохраняться абстрактно для параметрических описаний .

прогноз

Для использования зависимостей между последовательными значениями выборок, вырожденная корреляция осуществляются попыткой предсказать ход звуковых кривой. В результате может быть вычислен остаточный / разностный сигнал, который, если прогноз хороший, является соответственно слабым (то есть имеет несколько значащих цифр) и, более того , может быть сжат с использованием метода энтропийного кодирования . Для этой цели в большинстве случаев значения выборки экстраполируются из других с использованием сложных адаптивных методов прогнозирования.

Энтропийное кодирование

Энтропийное кодирование декоррелированного остаточного сигнала использует разные вероятности появления и сходства для его значений выборки. Например, для этого часто используются коды риса .

Метод является симметричным, если для декодирования сигнал проходит те же этапы в обратном порядке, что и для кодирования, а вычислительные затраты на кодирование зависят от вычислительных затрат, необходимых для декодирования.

Процедурные особенности

В случае кодеков без потерь, по определению, следует исключить различия в качестве аудиосигнала; процедурные различия заключаются в следующих особенностях:

  • коэффициент сжатия
  • прямое воспроизведение сжатых данных
  • Переход в любую позицию в аудиопотоке
  • Требования к ресурсам для сжатия и распаковки
  • Программное и аппаратное обеспечение
  • Гибкость в работе с метаданными
  • Тип лицензии
  • Кросс-платформенная доступность
  • Поддержка многоканальных сигналов
  • Поддержка разных разрешений - по времени ( частота дискретизации ) или по глубине звука ( глубина дискретизации )
  • возможно дополнительные режимы с потерями или даже гибридные режимы (файл с потерями + коррекция)
  • Поддержка потоковой передачи
  • Механизмы отказоустойчивости / коррекции
  • Встроенные контрольные суммы для быстрой проверки файла на полноту
  • Варианты симметричного и асимметричного кодирования (независимость / зависимость скорости декодирования от скорости кодирования)
  • Поддерживает создание самораспаковывающихся файлов
  • Совместимость со стандартом усиления воспроизведения
  • Встроенная поддержка контрольных листов
  • возможность хранения данных заголовка исходного формата

Аудио форматы без потерь

Lossless аудио форматов являются:

Сжатие аудиоданных с потерями

Как сжатие аудиоданных с потерями , менее точное сжатие аудио с меньшими потерями или в соответствующем контексте Сжатие с потерями или англ. точность или безвозвратно.

С помощью простых методов, таких как μ-закон и A-закон , только отдельные точки выборки потока данных PCM квантуются с использованием логарифмической характеристической кривой в зависимости от уровня. Такие методы, как ADPCM, уже используют корреляции последовательных точек выборки. Современные методы в основном основаны на частотных преобразованиях в связи с психоакустическими моделями, которые имитируют свойства человеческого (внутреннего) уха и снижают точность отображения замаскированных компонентов сигнала в соответствии с его недостатками. Для специализированных процессов также используются модели, которые имитируют звуковой генератор и, таким образом, обеспечивают синтез звука в приемнике или в декодере, с помощью которого затем можно описать большую часть сигнала с параметрами для управления синтезатором.

Сжатие с потерями

Психоакустика

Большинство современных методов не пытаются уменьшить математическую ошибку, а пытаются улучшить субъективное восприятие человеком последовательностей тонов. Поскольку человеческое ухо не может проанализировать всю информацию о входящем тоне, можно значительно изменить звуковой файл без ухудшения субъективного восприятия слушателя. Например, кодек может сохранять некоторые звуковые компоненты в диапазонах очень высоких и очень низких частот, которые находятся на границе слышимого диапазона с меньшей точностью или, в исключительных случаях, даже полностью отбрасывать их. Тихие звуки также могут воспроизводиться с меньшей точностью, поскольку они перекрываются («маскируются») громкими звуками соседних частот. Другой тип наложения заключается в том, что тихий звук нельзя распознать, если он идет непосредственно до или после громкого звука (временная маскировка). Такую модель связи между ухом и мозгом, которая отвечает за эти эффекты, часто называют психоакустической моделью (также: « Психоакустическая модель », « Психо-модель » или « Психо -модель »). Здесь используются свойства человеческого уха, такие как формирование частотных групп , пределы слухового диапазона, маскирующие эффекты и обработка сигналов внутреннего уха .

Большинство алгоритмов сжатия с потерями, которые работают в соответствии с психоакустической моделью, основаны на простых преобразованиях, таких как модифицированное дискретное косинусное преобразование (MDCT), которые преобразуют записанный сигнал в его частотные последовательности и, таким образом, находят приблизительные представления исходного материала, которые могут быть эффективно количественно оценено, потому что представление ближе к человеческому восприятию. Некоторые современные алгоритмы используют вейвлеты , но пока неизвестно, работают ли такие алгоритмы лучше, чем алгоритмы, основанные на MDCT.

качественный

Методы сжатия с потерями позволяют восстановить только приблизительно аналогичный сигнал из-за их принципа. Прозрачность может быть достигнута с помощью многих процессов, то есть может быть достигнута степень сходства для слухового восприятия (человека), при котором не может быть замечено никакой разницы с оригиналом. Артефакты сжатия, вносимые в сигнал, слышны ниже порога прозрачности. В верхней части шкалы находится прозрачность, при которой не заметно отличий от оригинала. Его можно определить при тестировании слепого слуха. В большинстве случаев показано примерно пороговое значение скорости передачи данных, при котором становится возможной прозрачность с более или менее высоким риском возникновения исключительных ситуаций, которые (пока) не могут быть (пока) закодированы прозрачно. Этот риск обычно уменьшается при дальнейшем увеличении скорости передачи данных и зависит, среди прочего, от архитектуры соответствующего метода. Здесь более современные методы часто могут предложить лучшие механизмы для преодоления проблемных областей. Ниже порога прозрачности процесса сжатия артефакты сжатия все еще могут быть в определенной степени замаскированы помехами, которые низкокачественные устройства вносят в воспроизведение. В случае заметных артефактов сжатия объективное сравнение различных методов намного сложнее, так как оно часто во многом зависит от субъективных предпочтений слушателя. Критерием здесь может быть, например, естественность звукового образа - например, напоминают ли артефакты естественные помехи, такие как шум. В нижней части шкалы качества речевые кодеки обычно рассматривают порог разборчивости, ниже которого речевой контент больше не может воспроизводиться понятным образом.

Артефакты сжатия

В случае методов сжатия, основанных на частотных преобразованиях, типичные артефакты включают заметно истонченный, более бедный звуковой спектр, который приводит, например, к артефактам щебетания («артефакт птички») или характерному тусклому, пузырящемуся или булькающему звуку и ведущему эхо ( Англ. «Pre-echo artifacts») для резких, высокоэнергетических звуковых событий ( переходных процессов ).

Потеря поколения

Поскольку части процесса сжатия с потерями обычно генерируют (дополнительные) потери при каждом запуске, возникает так называемая потеря генерации, если, например, файл сжимается во время транскодирования , затем распаковывается, а затем снова сжимается. На практике это в основном происходит, когда аудио-компакт-диск записывается из аудиофайлов с потерями (аудио-компакт-диски не сжаты), а затем материал считывается и сжимается. Это делает файлы с потерями непригодными для приложений в области профессиональной обработки звука ( «сокращение данных - это разрушение звука» ). Однако такие файлы очень популярны у конечных пользователей, поскольку одного мегабайта, в зависимости от сложности звукового материала, хватает примерно на минуту музыки приемлемого качества, что соответствует степени сжатия примерно 1:11.

Исключениями являются, например, предварительные фильтры с потерями для комбинации с процессами без потерь, такими как lossyWAV, которые обрабатывают данные PCM для последующего достижения большего сжатия с (определенным) процессом сжатия без потерь. Данные, сгенерированные предварительным фильтром, могут, конечно, сжиматься и распаковываться так часто, как требуется, с использованием метода сжатия без потерь, по крайней мере, до тех пор, пока они больше не изменяются, без каких-либо дополнительных потерь.

Оценка качества

Следующие ниже оценки основаны на различных тестах на слух, проведенных с сайта Hydrogenaudio.org. Этот форум представляет собой платформу, которую посещают заинтересованные и опытные пользователи, а также разработчики различных методов сжатия звука, таких как MP3 ( кодировщик LAME ), Vorbis или Nero-AAC. Большое количество участвующих в тестировании людей приводит к статистически подтвержденным заявлениям о качестве.

С момента разработки MP3 (около 1987 г.) и начального использования кодека (около 1997–2000 гг.) До наиболее широко используемого в мире аудиоформата (примерно с 2003 г.) качество вывода постоянно улучшалось. Другие форматы, такие как Vorbis, WMA или AAC, также были разработаны, чтобы представить альтернативу MP3 или заменить его в долгосрочной перспективе. Эти форматы также постоянно развивались.

Файл MP3 с битрейтом ~ 128 кбит / с в 1997 году казался очень скромным. Обещанное качество компакт-диска тогда еще не было достигнуто. В 2005 году, как подтвердили тесты слуха того времени, кодировщик LAME для того же формата со скоростью ~ 128 кбит / с уже предлагал прозрачное качество для явного большинства слушателей, то есть неотличимое от исходной записи.

Согласно тесту на слух, проведенному в августе 2007 года, сопоставимое качество может быть достигнуто с форматом AAC на скорости 96 кбит / с.

Тесты прослушивания нулевых с битрейтом 48 и 64 кбит / с показывают, что при таких низких битрейтах может быть достигнуто качество, подходящее для использования в портативных устройствах или для веб-радио.

С помощью кодировщика хорошего качества и правильного формата уже можно было достичь качества от 96 до 128 кбит / с, которое явное большинство пользователей не может отличить от компакт-диска.

Аудио форматы с потерями

Спектральный анализ несжатой песни The Power of Thy Sword показывает полную полосу пропускания примерно до 21 кГц, тогда как более низкие спектры соответствующих файлов имеют значительно меньшую полосу пропускания, но это не означает, что качество звука значительно ухудшилось. (Частотные спектры MiniDisc из аналоговой записи)

В примерах, насколько известно, также указаны скорости передачи данных , при которых сжатый файл больше не может отличаться от оригинала для большинства людей, т.е. звучит прозрачно - при сосредоточенном прослушивании с хорошими аксессуарами и сложным кодеком соответствующего сжатия. схема; в зависимости от типа музыки. Однако следует отметить, что прозрачность не ощущается всеми при одинаковой скорости передачи данных. Здесь важную роль играет качество цифро-аналоговых преобразователей, усилителей и боксов. Хотя сжатие с потерями обычно очень хорошо слышно на студийном оборудовании, даже для непрофессионалов, его нельзя отличить от оригинала на низкокачественных устройствах воспроизведения, даже для профессионалов. Таким образом, информация является справочной величиной для среднего слушателя со средним оборудованием. Битрейт компакт-дисков составляет 1411,2 кбит / с (килобит в секунду).

Для сравнения различных аудиокодеков см. Веб-ссылки .

  • AC-3 , также называемый Dolby Digital или аналогичный
  • AAC (MPEG-2, MPEG-4 ): 96-320 кбит / с
  • ATRAC ( MiniDisc ): 292 кбит / с
  • ATRAC3 (MiniDisc в режиме MDLP): 66–132 кбит / с
  • ATRAC3plus (для Hi-MD и других портативных аудиоустройств Sony): 48–352 кбит / с
  • DTS
  • MP2 : Аудиокодек MPEG-1 Layer 2 ( MPEG-1 , MPEG-2 ): 280-400 кбит / с
  • MP3 : Аудиокодек MPEG-1 Layer 3 (MPEG-1, MPEG-2, LAME ): 180–250 кбит / с
  • mp3PRO
  • Musepack : 160–200 кбит / с (открытый код)
  • Ogg Vorbis : 160–220 кбит / с (открытый исходный код)
  • опус
  • WMA
  • LPEC
  • TwinVQ

Смотри тоже

литература

  • Роланд Эндерс: Руководство по домашней записи . 3. Издание. Карстенсен, Мюнхен, 2003 г., ISBN 3-910098-25-8 .
  • Томас Гёрне: Звуковая инженерия . 1-е издание. Карл Хансер, Лейпциг 2006 г., ISBN 3-446-40198-9 .
  • Р. Бекманн: Руководство по технологии громкой связи, практика основных компонентов . 2-е издание. Elektor, Aachen 1990, ISBN 3-921608-66-X .
  • А. Лерх: Снижение битрейта . В: Стефан Вайнциерль (ред.): Руководство по аудиотехнологии . 1-е издание. Springer, Берлин, 2008 г., ISBN 978-3-540-34300-4 , стр. 849-884 .

веб ссылки

Commons : сжатие аудиоданных  - коллекция изображений, видео и аудио файлов.

Индивидуальные доказательства

  1. http://wiki.hydrogenaudio.org/?title=lossyWAV
  2. Результаты публичного многоформатного теста на прослушивание при 128 кбит / с (декабрь 2005 г.) ( памятная записка от 5 июня 2008 г. в Интернет-архиве )
  3. а б Результаты общественного, мультиформатный Listening Test @ 48 килобайт (ноябрь 2006) ( Memento от 5 июня 2008 года в Internet Archive ), на www.listening-tests.info, ноябрь 2006 ( на английском языке).
  4. Результаты публичного многоформатного теста на прослушивание @ 64 кбит / с (июль 2007 г.) ( памятная записка от 5 июня 2008 г. в Интернет-архиве )