Сканирование страницы с динамически генерируемым содержимым

Question

Сканирование страницы с динамически генерируемым содержимым

Я использовал искатель java.net для специально созданного искателя. Проблема заключается в динамически генерируемом контенте, таком как, например, комментарии в блоге. Рассмотрим следующую страницу http://www.avc.com/a_vc/2010/09/contrarian-investing.html . Если вы просканируете страницу и получите исходный код, вы можете ' t просматривать все содержимое страницы. Причина, по которой мне нужен контент, заключается в том, что я выполняю некоторые вычисления плотности ключевых слов. Следовательно, мне нужно, чтобы мое приложение могло видеть именно то, что видит браузер. Есть предложения?

Я просмотрел httpclient apache, однако он такой же, как и вышеупомянутый искатель, только возвращает исходный код. Я думаю, что на этой конкретной странице есть фрагмент javascript, который возвращает комментарии из другого домена, поэтому я полагаю, что мне нужно проанализировать источник после его загрузки, а затем получить текст. Любая помощь приветствуется.

спасибо

Сэм

1

java web-crawler

задан Sam Mohamed 12 September 2010 в 21:56

0 ответов

Другие вопросы по тегам:

java web-crawler

Сканирование страницы с динамически генерируемым содержимым

0 ответов

Похожие вопросы: