Что алгоритмы могли я использовать для идентификации содержания на веб-странице

Мне загрузили веб-страницу в браузере (т.е. его DOM и расположение элемента оба доступны для меня), и я хочу найти элемент блока (или отсортированный список этих элементов), который, вероятно, содержит самое довольное (как в непрерывном блоке текста). Цель состоит в том, чтобы исключить вещи как меню, заголовки, нижние колонтитулы и такой.

9
задан Charles Stewart 7 January 2010 в 01:25
поделиться

4 ответа

2
ответ дан 3 November 2019 в 07:13
поделиться

Сначала, если вам нужно разобрать веб-страницу, я бы использовал HTMLAgilityPack для преобразования ее в XML. Это ускорит все и позволит Вам, используя простой XPath, перейти непосредственно к BODY.

После этого, Вы должны запустить все divs (Вы можете получить все элементы DIV в списке из пакета адаптивности), и получить все, что захотите.

.
1
ответ дан 3 November 2019 в 07:13
поделиться

Есть простой метод, основанный на анализе того, насколько "шумен" HTML, т.е. каково отношение разметки к отображаемому тексту через html страницу. Простой способ извлечения полезного текста из произвольного HTML описывает этот текст, давая питоновый код для иллюстрации.

Ср. также HTML::ContentExtractor Perl модуль, который реализует эту идею. Имеет смысл сначала почистить html, если вы хотите использовать его, используя красивый суп.

1
ответ дан 3 November 2019 в 07:13
поделиться

Я бы порекомендовал Диссертацию Vit Baisa на Уборка веб-контента , я думаю, у него тоже есть код, но я не могу найти ссылку для этого. Существует также дискуссия из той же проблемы на блоге Lingpipe для обработки естественного языка.

1
ответ дан 3 November 2019 в 07:13
поделиться
Другие вопросы по тегам:

Похожие вопросы: