Извлечение содержимого статьи HTML - альтернатива Alchemy API

Я провел много исследований, чтобы найти лучший способ кодирования приложения для получения основного содержания статьи практически с любой веб-страницы HTML. У меня есть программа на C, которая использует libxml2 для синтаксического анализа XML, но я наткнулся на Alchemy API, который, похоже, делает то, что я хочу.

Однако у него есть только онлайн-API, и я хотел сохранить приложение внутри компании. не полагаясь на внешние звонки.

Так у кого-нибудь есть советы? Я надеялся на автономную альтернативу, которая делает то, что может делать Alchemy API (платная / неоплачиваемая).

Моя альтернатива может заключаться в том, чтобы просто проанализировать HTML и использовать методы NLP (обработка естественного языка) и другие методы для доступа к основному содержанию статьи. Типы веб-сайтов, которые он будет использовать, включают веб-сайты с разделом новостей или блогом.

7
задан Pranav 웃 11 December 2013 в 10:50
поделиться