Что самый легкий путь состоит в том, чтобы программно извлечь структурированные данные из набора веб-страниц?

Question

Что самый легкий путь состоит в том, чтобы программно извлечь структурированные данные из набора веб-страниц?

Я в настоящее время использую программу Adobe AIR, которую я записал, чтобы перейти по ссылкам на одной странице и захватить раздел данных прочь последующих страниц. Это на самом деле хорошо работает, и для программистов я думаю, что это (или другие языки) обеспечивает разумный подход, чтобы быть записанным на индивидуальной основе. Возможно, существует определенный язык или библиотека, которая позволяет программисту делать это очень быстро, и раз так я интересовался бы знанием, каковы они.

Также какие-либо инструменты существуют, который позволил бы непрограммисту, как представитель поддержки клиентов или кто-то отвечающий за сбор данных, для извлечения структурированных данных из веб-страниц без потребности сделать набор копии и вставки?

7

c# java apache-flex perl air

задан dennisjtaylor 18 December 2009 в 19:42

6 ответов

Я обнаружил, что YQL очень мощный и полезный инструмент для такого рода вещей. Вы можете выбрать любую веб-страницу в Интернете, и она сделает ее действительной, а затем позволит вам использовать XPATH для запроса ее частей. Вы можете вывести его как XML или JSON, готовый для загрузки в другой сценарий / приложение.

Я написал свой первый эксперимент с ним здесь:

http://www.kelvinluck.com/2009/02/data-scraping -with-yql-and-jquery /

С тех пор YQL стал более мощным за счет добавления ключевого слова EXECUTE, которое позволяет вам написать свою собственную логику на javascript и запустить ее на Yahoo! s серверов, прежде чем возвращать вам данные.

Более подробное описание YQL здесь .

Вы можете создать базу данных для YQL, чтобы получить основную информацию, которую вы пытаетесь получить а затем человек, отвечающий за сбор данных, может написать очень простые запросы (в DSL, который довольно много английский) к этой таблице. Им было бы легче, чем "правильное программирование" хотя бы ...

2