Я создаю сканер, который загружает документы веб-страниц с веб-сайта и сохраняет их содержимое в базе данных.
Я хочу хранить только документы на английском языке.
Мне не удается выяснить, на каком языке написана конкретная веб-страница, чтобы я мог решить сохранить ее в базе данных или нет.
Вы должны использовать распознавание языка. Есть несколько API, которые вы можете использовать. Он в основном состоит в том, что вы отправляете текст, и он возвращает язык.
Также вы можете создать свой собственный API, применив некоторое машинное обучение, в котором вы приведете несколько примеров того, что означает «английский» текст.
Я бы порекомендовал вам поискать в Google «API распознавания языка» или что-то в этом роде, чтобы у вас было более четкое представление.
Я подозреваю, что нет «единственного» способа сделать это. Некоторые HTML-страницы будут объявлять свой язык, многие / большинство не будут. Вам придется придумать некоторую эвристику, которая определяет язык из нескольких методов, и принять решение на основе этой информации.
Может быть, какое-то взвешивание:
Затем решите, достигли ли вы разумного значения, что вы говорите «это определенно английский», и пошли.