LZ4 — алгоритм сжатия данных без потерь, ориентированный на высокую скорость сжатия и распаковки. Он относится к семейству методов сжатия LZ77, работающих с байтовыми потоками. Отличается компактным кодом для распаковки.
Особенности
Алгоритм LZ4 имеет немного меньшую степень сжатия, чем более ранний метод сжатия LZO. LZO, в свою очередь, сжимает с меньшей степенью, чем классические gzip и DEFLATE. Однако, LZ4 по скорости сжатия близок к LZO и в несколько раз быстрее gzip’а, а скорость распаковки у LZ4 значительно выше, чем у LZO.[2]
Метод сжатия
Сжатые данные в методе LZ4 представляются в виде последовательности записей. Каждая запись начинается с токена — одного байта, разбитого на два 4-битных поля. Первое поле определяет количество байтов литеральной последовательности — то есть строки, которая при распаковке будет скопирована в выходной поток. Второе поле определяет длину строки, копируемой из уже распакованного буфера (из словаря). Значение 0 в поле соответствует минимальной длине совпадения в 4 байта. Значение 15 в поле является признаком использования дополнительного байта, значение которого будет прибавлено к длине. Если дополнительный байт длины равен 255, то к полю длины прибавляется значение ещё одного байта, что позволяет указывать произвольные длины через серию байтов со значением 255 (0xff). Строка литерала в сжатой последовательности следует за токеном и дополнительными байтами длин литерала. Затем записывается смещение совпадения в выходном буфере и дополнительные байты длины совпадения.[3][4][5] Дополнительно могут использоваться фреймы, указывающие на размер данных и содержащие контрольные суммы[6][7].
Энтропийное кодирование (такое, как Код Хаффмана) не применяется.
Сжатие может осуществляться над потоком байтов или над последовательностью блоков. Достигаемая степень сжатия зависит от объёма работы, выполняемой для поиска совпадений. Если потратить больше времени на сжатие, то будет получен более компактный сжатый файл, а скорость его распаковки вырастет.
Реализация
Оригинальная реализация LZ4 написана на языке программирования Си Яном Колле (Yann Collet) и распространяется на условиях лицензии BSD. Существуют портированные версии и интерфейсы для множества языков, в том числе Java, C#, Python и т. д.[8] Некоторые базы данных, например Hadoop, используют LZ4 благодаря его высокой скорости сжатия. LZ4 также реализован в составе ядра Linux начиная с версии 3.11[9], может применяться для ускорения загрузки[10]. Файловая система ZFS в составе реализаций FreeBSD, Illumos, «ZFS on Linux» и ZFS-OSX поддерживает метод LZ4 для сжатия данных .[11][12][13][14] Ядро Linux поддерживает LZ4 для сжатых образов ФС SquashFS начиная с версии 3.19.[15] LZ4 также реализован в составе архиватора Zstd Яна Колле.
Примечания
Ссылки