Node.js Парсер Cheerio нарушает кодировку UTF-8

Начиная с Grep 2.21, двоичные файлы обрабатываются по-разному :

При поиске двоичных данных grep теперь может обрабатывать нетекстовые байты в качестве терминаторов строк. Это может значительно повысить производительность.

blockquote>

Итак, теперь происходит то, что с бинарными данными все нетекстовые байты (включая новые строки) рассматриваются как терминаторы строк. Если вы хотите изменить это поведение, вы можете:

  • использовать --text. Это гарантирует, что только новые строки являются терминаторами строк
  • , используя --null-data. Это гарантирует, что только нулевые байты являются терминаторами строк

13
задан JJJ 17 March 2017 в 21:20
поделиться

1 ответ

У меня была проблема рано сегодня при попытке для загрузки с за ваше здоровье страницей, где у нас были специальные символы как ç, á, é, и т.д.

, путь за ваше здоровье работает, это - попытки декодировать символы по своей природе и представить числовое кодирование HTML символа Unicode

, например: вместо ç это дало бы нам ç.

для сортировки той проблемы, я просто должен был выключить эту конфигурацию путем добавления: decodeEntities: false как за ваше здоровье загружают параметрический усилитель.

const $ = cheerio.load(body, { decodeEntities: false });
0
ответ дан 1 December 2019 в 19:42
поделиться
Другие вопросы по тегам:

Похожие вопросы: