Веб-парсинг - как определить основной контент на веб-странице

Учитывая веб-страницу новостной статьи (из любого основного источника новостей, такого как Times или Bloomberg ), Я хочу выделить основное содержание статьи на этой странице и выбросить другие элементы, такие как реклама, меню, боковые панели, комментарии пользователей.

Что? Какой общий способ сделать это будет работать на большинстве крупных новостных сайтов?

Какие есть хорошие инструменты или библиотеки для интеллектуального анализа данных? (желательно на основе Python)

44
задан Anony-Mousse 13 August 2015 в 09:53
поделиться