Как разработать бота для сканирования?

Я работаю над небольшим проектом по анализу контента на некоторых сайтах, на которых я найти интересное; это настоящий DIY-проект, который я делаю для развлечения / просвещения, поэтому я хотел бы написать как можно больше кода самостоятельно.

Очевидно, мне понадобятся данные для загрузки моего приложения, и я подумал, что напишу небольшой поисковый робот, который возьмет около 20 тысяч страниц HTML и запишет их в текстовые файлы на моем жестком диске.Однако, когда я заглянул на SO и другие сайты, я не смог найти никакой информации о том, как это сделать. Насколько это возможно? Похоже, что есть варианты с открытым исходным кодом (webpshinx?), Но я хотел бы написать это сам, если возможно.

Scheme - единственный язык, который я хорошо знаю, но я подумал, что воспользуюсь этим проектом, чтобы изучить немного Java, поэтому мне было бы интересно, есть ли какие-нибудь библиотеки racket или java, которые были бы полезны для этого.

Итак, я хотел бы резюмировать свой вопрос, какие хорошие ресурсы для начала работы над этим? Как я могу заставить мой сканер запрашивать информацию с других серверов? Придется ли мне писать для этого простой парсер, или это не нужно, если я хочу взять весь html-файл и сохранить его как txt?

5
задан John Clements 20 January 2012 в 05:24
поделиться