Как узнать язык HTML-страницы?

Я создаю сканер, который загружает документы веб-страниц с веб-сайта и сохраняет их содержимое в базе данных.
Я хочу хранить только документы на английском языке.
Мне не удается выяснить, на каком языке написана конкретная веб-страница, чтобы я мог решить сохранить ее в базе данных или нет.

1
задан gunr2171 18 March 2019 в 17:02
поделиться

2 ответа

Вы должны использовать распознавание языка. Есть несколько API, которые вы можете использовать. Он в основном состоит в том, что вы отправляете текст, и он возвращает язык.

Также вы можете создать свой собственный API, применив некоторое машинное обучение, в котором вы приведете несколько примеров того, что означает «английский» текст.

Я бы порекомендовал вам поискать в Google «API распознавания языка» или что-то в этом роде, чтобы у вас было более четкое представление.

0
ответ дан Brank Victoria 18 March 2019 в 17:02
поделиться

Я подозреваю, что нет «единственного» способа сделать это. Некоторые HTML-страницы будут объявлять свой язык, многие / большинство не будут. Вам придется придумать некоторую эвристику, которая определяет язык из нескольких методов, и принять решение на основе этой информации.

Может быть, какое-то взвешивание:

  • HTML-объявление = 0,75
  • 90% innerText - это «английский» = 0,50
  • и т. Д. И т. Д. (Можно не думайте о другом тесте)

Затем решите, достигли ли вы разумного значения, что вы говорите «это определенно английский», и пошли.

0
ответ дан Neil 18 March 2019 в 17:02
поделиться
Другие вопросы по тегам:

Похожие вопросы: