Эффективный алгоритм сжатия для коротких [закрытых] текстовых строк

Question

Эффективный алгоритм сжатия для коротких [закрытых] текстовых строк

Mutex: Предположим, что у нас есть критический раздел, который T1 хочет получить к нему доступ, затем он выполняет следующие шаги. T1:

Блокировка
Использовать критическую секцию
Разблокировать

Двоичный семафор: работает на основе сигналов ожидания и сигнала. wait (s) уменьшает значение "s" на единицу, обычно значение "s" инициализируется значением "1", сигнал (ы) увеличивает значение "s" на единицу. если значение "s" равно 1, значит, никто не использует критическую секцию, когда значение равно 0, означает, что критическая секция используется. Предположим, что поток T2 использует критическую секцию, а затем следует следующие шаги. T2:

wait (s) // изначально значение s равно единице после ожидания вызова, его значение уменьшилось на единицу, т.е. 0
Использовать сигнал критической секции
(с) ) // теперь значение s увеличивается и становится равным 1

Основное различие между Mutex и двоичным семафором заключается в Mutext, если поток блокирует критическую секцию, то он должен разблокировать критическую секцию, никакой другой поток не может разблокировать его , но в случае двоичного семафора, если один поток блокирует критическую секцию с помощью функции wait (s), тогда значение s становится «0», и никто не может получить к нему доступ, пока значение «s» не станет 1, но предположим, что какой-то другой поток вызывает сигнал (ы) ) тогда значение "s" становится 1, и это позволяет другой функции использовать критическую секцию. следовательно, в двоичном семафорном потоке нет владения.

120

algorithm compression

задан Victor Sergienko 5 February 2016 в 14:07

6 ответов

Huffman has a static cost, the Huffman table, so I disagree it's a good choice.

There are adaptative versions which do away with this, but the compression rate may suffer. Собственно, вопрос, который вы должны задать, - «какой алгоритм сжатия текстовых строк с такими характеристиками». Например, если ожидается долгое повторение, может быть достаточно простого кодирования Run-Lengh. Если вы можете гарантировать, что будут присутствовать только английские слова, пробелы, пунктиры и случайные цифры, то Хаффман с предварительно определенной таблицей Хаффмана может дать хорошие результаты.

Как правило, алгоритмы семейства Лемпеля-Зива имеют очень хорошее сжатие. и производительность, и библиотеки для них предостаточно. Я бы пошел с этим.

Имея информацию о том, что сжимаются URL-адреса, я бы посоветовал вам перед сжатием (с помощью любого легко доступного алгоритма) КОДИФИРОВАТЬ их. URL-адреса следуют четко определенным шаблонам, и некоторые их части очень предсказуемы. Используя эти знания, вы можете кодифицировать URL-адреса на что-то меньшее для начала, и идеи, лежащие в основе кодирования Хаффмана, могут вам здесь помочь.

Например, переводя URL-адрес в битовый поток, вы можете заменить «http» на бит 1 и что-нибудь еще с битом «0», за которым следует фактический протокол (или используйте таблицу для получения других общих протоколов, таких как https, ftp, file). Знак ": //" можно вообще отбросить, если вы можете отметить конец протокола. И т.д. Прочтите о формате URL и подумайте, как их можно кодировать, чтобы занимать меньше места.

с последующим фактическим протоколом (или используйте таблицу для получения других распространенных протоколов, таких как https, ftp, file). Знак ": //" можно вообще отбросить, если вы можете отметить конец протокола. И т.д. Прочтите о формате URL и подумайте, как их можно кодировать, чтобы занимать меньше места.

28