Как узнать язык HTML-страницы?

Question

Как узнать язык HTML-страницы?

Я создаю сканер, который загружает документы веб-страниц с веб-сайта и сохраняет их содержимое в базе данных.
Я хочу хранить только документы на английском языке.
Мне не удается выяснить, на каком языке написана конкретная веб-страница, чтобы я мог решить сохранить ее в базе данных или нет.

1

html

задан gunr2171 18 March 2019 в 17:02

2 ответа

Другие вопросы по тегам:

html

Похожие вопросы:

score 0 · Answer 1

Вы должны использовать распознавание языка. Есть несколько API, которые вы можете использовать. Он в основном состоит в том, что вы отправляете текст, и он возвращает язык.

Также вы можете создать свой собственный API, применив некоторое машинное обучение, в котором вы приведете несколько примеров того, что означает «английский» текст.

Я бы порекомендовал вам поискать в Google «API распознавания языка» или что-то в этом роде, чтобы у вас было более четкое представление.

score 0 · Answer 2

Я подозреваю, что нет «единственного» способа сделать это. Некоторые HTML-страницы будут объявлять свой язык, многие / большинство не будут. Вам придется придумать некоторую эвристику, которая определяет язык из нескольких методов, и принять решение на основе этой информации.

Может быть, какое-то взвешивание:

HTML-объявление = 0,75
90% innerText - это «английский» = 0,50
и т. Д. И т. Д. (Можно не думайте о другом тесте)

Затем решите, достигли ли вы разумного значения, что вы говорите «это определенно английский», и пошли.