Я знаком с языком программирования Java, мне нравится извлекать данные из веб-сайта и хранить их к моей базе данных, работающей на моей машине. Это возможное в Java. Раз так, который API я должен использовать. Например, число школ перечислено на веб-сайте, Как я могу извлечь те данные и сохранить их к моей базе данных с помощью Java.
Что вы имеете в виду, обычно называют «скриншовом». Есть разнообразные способы сделать это в Java, однако я предпочитаю HTMLUNIT . Хотя он был спроектирован как способ проверить веб-функции, вы можете использовать его, чтобы ударить удаленную веб-страницу и проанализировать его.
Я бы порекомендовал использовать хорошую обработку ошибок HTML-анализатора, как Tagsououp , чтобы извлечь из HTML именно то, что вы ищете.
В зависимости от того, что вы действительно пытаетесь сделать, вы можете использовать много разных решений.
Если вы всегда хотите получить HTML-код веб-страницы, то URL.GetContent () может быть вашим решением. Вот небольшое руководство:
http://www.javacoffeebreak.com/books/extracts/javanotesv3/c10/s4.html
Редактировать: не понял, что он искал способ разбора HTML-кода Отказ Некоторые инструменты были предложены выше. Простите за это.
Вам определенно нужен хороший анализатор, такой как неихтмл.
Вот пример использования NekoHTML, хотя и используя Groovy (язык сценариев на основе Java), а не сама Java:
Вы можете использовать VietSpider XML из
http://sourceforge.net/projects/binhgiang/files/
Загрузите VietSpider3_16_XML_Windows.zip или VietSpider3_16_XML_Linux.zip
VietSpider Web Data Extractor: Программное обеспечение сканирует данные из веб-сайты ((Data Scraper)) форматируются в стандарте XML (Text, CDATA), а затем сохраняются в реляционной базе данных. Продукт поддерживает различные RDBM, такие как Oracle, MySQL, SQL Server, H2, HSQL, Apache Derby, Postgres ... VietSpider Crawler поддерживает сеанс (вход в систему, ввод запроса по форме), множественную загрузку, обработку JavaScript, прокси (и мульти-прокси). путем автоматического сканирования прокси с веб-сайта)…