Есть ли библиотека (для java), которая сравнивает сходство между веб-страницами (HTML, сходство)?
В моем приложении я хочу классифицировать ссылки веб-сайта.
Например:
группа 1: страница сведений о продукте
группа 2: Страница категории
(для интернет-магазинов и т. д.).
Я думаю, что для такой классификации лучше всего подходит подобие структуры (dom) html. Пожалуйста, помогите в этом.