Сжатие информации. Энтропийные алгоритмы сжатия.

Автор: · Дата: 22 Декабрь 2012 · Есть 1 комментарий

 Шама В.А.

РБ-11

Сжатие данных (англ. data compression) — алгоритмическое преобразование данных, производимое с целью уменьшения их объёма. Применяется для более рационального использования устройств хранения и передачи данных. Синонимы — упаковка данных, компрессия, сжимающее кодирование, кодирование источника. Обратная процедура называется восстановлением данных (распаковкой, декомпрессией).

Сжатие основано на устранении избыточности, содержащейся в исходных данных. Простейшим примером избыточности является повторение в тексте фрагментов (например, слов естественного или машинного языка). Подобная избыточность обычно устраняется заменой повторяющейся последовательности ссылкой на уже закодированный фрагмент с указанием его длины. Другой вид избыточности связан с тем, что некоторые значения в сжимаемых данных встречаются чаще других. Сокращение объёма данных достигается за счёт замены часто встречающихся данных короткими кодовыми словами, а редких — длинными (энтропийное кодирование). Сжатие данных, не обладающих свойством избыточности (например, случайный сигнал или белый шум, зашифрованные сообщения), принципиально невозможно без потерь

Принципы сжатия данных

В основе любого способа сжатия лежит модель источника данных, или, точнее, модель избыточности. Иными словами, для сжатия данных используются некоторые априорные сведения о том, какого рода данные сжимаются. Не обладая такими сведениями об источнике, невозможно сделать никаких предположений о преобразовании, которое позволило бы уменьшить объём сообщения. Модель избыточности может быть статической, неизменной для всего сжимаемого сообщения, либо строиться или параметризоваться на этапе сжатия (и восстановления). Методы, позволяющие на основе входных данных изменять модель избыточности информации, называются адаптивными. Неадаптивными являются обычно узкоспециализированные алгоритмы, применяемые для работы с данными, обладающими хорошо определёнными и неизменными характеристиками. Подавляющая часть достаточно универсальных алгоритмов являются в той или иной мере адаптивными.

Все методы сжатия данных делятся на два основных класса:

  • Сжатие данных без потерь

Сжатие данных без потерь (англ. Lossless data compression) — метод сжатия данных: видео, аудио, графики, документов представленных в цифровом виде, при использовании которого закодированные данные могут быть восстановлены с точностью до бита. При этом оригинальные данные полностью восстанавливаются из сжатого состояния. Этот тип сжатия принципиально отличается от сжатия данных с потерями. Для каждого из типов цифровой информации, как правило, существуют свои оптимальные алгоритмы сжатия без потерь.

Сжатие данных без потерь используется во многих приложениях. Например, оно используется во всех файловых архиваторах. Оно также используется как компонент в сжатии с потерями.

Сжатие без потерь используется, когда важна идентичность сжатых данных оригиналу. Обычный пример — исполняемые файлы и исходный код. Некоторые графические файловые форматы, такие как PNG, используют только сжатие без потерь; тогда как другие (TIFF, MNG) или GIF могут использовать сжатие как с потерями, так и без.

 Методы сжатия без потерь

  •  Сжатие с потерями

 Типы сжатия с потерями

Существуют две основных схемы сжатия с потерями:
В трансформирующих кодеках фреймы изображений или звука обычно трансформируются в новое базисное пространство и производится квантование. Трансформация может осуществляться либо для всего фрейма целиком (как, например, в схемах на основе wavelet-преобразования), либо поблочно (характерный пример — JPEG). Результат затем сжимается энтропийными методами.
В предсказывающих кодеках предыдущие и/или последующие отсчеты данных используются для того, чтобы предсказать текущий отсчет изображения или звука. Ошибка между предсказанными данными и реальными вместе с добавочной информацией, необходимой для производства предсказания, затем квантуется и кодируется.

В некоторых системах эти две техники комбинируются путём использования трансформирующих кодеков для сжатия ошибочных сигналов, сгенерированных на стадии предсказания.

Компрессия изображений
Снижение глубины цвета
Метод главных компонент
Фрактальное сжатие
Сжатие на основе предсказателей
JPEG-LS
ДИКМ
Иерархическая сеточная интерполяция
CALIC
JPEG
Вэйвлетная компрессия
JPEG 2000
DjVu

Компрессия видео
Motion JPEG
Flash (поддерживает Motion JPEG)
H.261
H.263
H.264
MNG (поддерживает Motion JPEG)
MPEG-1 Part 2
MPEG-2 Part 2
MPEG-4 Part 2
Ogg Theora (отличается отсутствием патентных ограничений)
Sorenson video codec (англ.)
VC-1 — открытая спецификация для формата WMV (Microsoft)

Компрессия звука
Основная статья: Цифровой звук

Музыка
MP3 — Определён спецификацией MPEG-1
Ogg Vorbis (отличается отсутствием патентных ограничений и более высоким качеством)
AAC, AAC+ — существует в нескольких вариантах, определённых спецификациями MPEG-2 и MPEG-4, используется, например, в Apple
eAAC+ — формат, предлагаемый Sony, как альтернатива AAC и AAC+
Musepack
WMA — собственность Microsoft
ADPCM
ATRAC
Dolby AC-3
DTS
MPEG-1 Audio Layer II
VQF

Речь
CELP
G.711
G.726
HILN (англ.)
Speex (отличается отсутствием патентных ограничений)

 Сжатие с потерями против сжатия без потерь

Преимущество методов сжатия с потерями над методами сжатия без потерь состоит в том, что первые существенно превосходят по степени сжатия, продолжая удовлетворять поставленным требованиям, а именно — искажения д.б. в допустимых пределах чувствительности человеческих органов.

Методы сжатия с потерями часто используются для сжатия аналоговых данных — чаще всего звука или изображений.

В таких случаях распакованный файл может очень сильно отличаться от оригинала на уровне сравнения «бит в бит», но практически неотличим для человеческого уха или глаза в большинстве практических применений.

Много методов фокусируются на особенностях строения органов чувств человека. Психоакустическая модель определяет то, как сильно звук может быть сжат без ухудшения воспринимаемого качества звука. Недостатки, причинённые сжатием с потерями, которые заметны для человеческого уха или глаза, известны как артефакты сжатия.

Фотографии, записанные в формате JPEG, могут быть приняты судом (несмотря на то, что данные прошли сжатие с потерями).

Недостатки

При использовании сжатия с потерями необходимо учитывать, что повторное сжатие с потерями снижает качество, а декодирование увеличивает размер, не возвращая или не повышая качество. Поэтому для данных, которые когда-либо могут подвергнуться редактированию либо преобразованию в другие форматы (для совместимости или из‐за невозможности платить патентные отчисления за декодирование или распространение сжатых данных), следует сохранять оригинал.

 ИСТОЧНИК

Популярность: 53%

Рубрика: Информатика ·  

Комментарии

  1. Дмитрий:

    9



Оставить комментарий или два

Пожалуйста, зарегистрируйтесь для комментирования.