Как извлечь данные из веб-сайта с помощью Java?

Я знаком с языком программирования Java, мне нравится извлекать данные из веб-сайта и хранить их к моей базе данных, работающей на моей машине. Это возможное в Java. Раз так, который API я должен использовать. Например, число школ перечислено на веб-сайте, Как я могу извлечь те данные и сохранить их к моей базе данных с помощью Java.

6
задан Jherico 11 January 2010 в 19:43
поделиться

4 ответа

Что вы имеете в виду, обычно называют «скриншовом». Есть разнообразные способы сделать это в Java, однако я предпочитаю HTMLUNIT . Хотя он был спроектирован как способ проверить веб-функции, вы можете использовать его, чтобы ударить удаленную веб-страницу и проанализировать его.

Я бы порекомендовал использовать хорошую обработку ошибок HTML-анализатора, как Tagsououp , чтобы извлечь из HTML именно то, что вы ищете.

7
ответ дан 10 December 2019 в 02:48
поделиться

В зависимости от того, что вы действительно пытаетесь сделать, вы можете использовать много разных решений.

Если вы всегда хотите получить HTML-код веб-страницы, то URL.GetContent () может быть вашим решением. Вот небольшое руководство:

http://www.javacoffeebreak.com/books/extracts/javanotesv3/c10/s4.html

Редактировать: не понял, что он искал способ разбора HTML-кода Отказ Некоторые инструменты были предложены выше. Простите за это.

0
ответ дан 10 December 2019 в 02:48
поделиться

Вам определенно нужен хороший анализатор, такой как неихтмл.

Вот пример использования NekoHTML, хотя и используя Groovy (язык сценариев на основе Java), а не сама Java:

http://www.keplarllp.com/blog/2010/01/better-comeptitome-intelligence --вступление со счету со стоной

1
ответ дан 10 December 2019 в 02:48
поделиться

Вы можете использовать VietSpider XML из

http://sourceforge.net/projects/binhgiang/files/

Загрузите VietSpider3_16_XML_Windows.zip или VietSpider3_16_XML_Linux.zip

VietSpider Web Data Extractor: Программное обеспечение сканирует данные из веб-сайты ((Data Scraper)) форматируются в стандарте XML (Text, CDATA), а затем сохраняются в реляционной базе данных. Продукт поддерживает различные RDBM, такие как Oracle, MySQL, SQL Server, H2, HSQL, Apache Derby, Postgres ... VietSpider Crawler поддерживает сеанс (вход в систему, ввод запроса по форме), множественную загрузку, обработку JavaScript, прокси (и мульти-прокси). путем автоматического сканирования прокси с веб-сайта)…

1
ответ дан 10 December 2019 в 02:48
поделиться
Другие вопросы по тегам:

Похожие вопросы: