Вопросы Теги

Есть ли какие-либо стандартные блоки для поисковой системы, которая очистит другие сайты?

Строковое представление по умолчанию для словаря кажется правильным:

>>> a={3: 'foo', 17: 'bar' }
>>> a
{17: 'bar', 3: 'foo'}
>>> print a
{17: 'bar', 3: 'foo'}
>>> print "a=", a
a= {17: 'bar', 3: 'foo'}

Не уверен, что вы можете получить «имя переменной», так как переменные в Python являются просто метками для значений. См. этот вопрос .

1

search search-engine web-crawler

задан marcamillion 18 June 2009 в 17:42

поделиться

2 ответа

В python есть несколько блоков, которые вы можете используйте.

beautifulsoup [ http: //www.crummy. com / software / BeautifulSoup /] для синтаксического анализа HTML. Он также может обрабатывать плохой код, и его API очень прост ... намного лучше, чем любой DOM-подобный инструмент для меня. Мой друг успешно использовал его для очистки своего старого форума phpbb. У него довольно хорошая документация.
Mechanize [ http://wwwsearch.sourceforge.net/mechanize/] - это клиентская библиотека http, имитирующая веб-браузер. Он обрабатывает файлы cookie, заполняет формы и так далее. Также прост в использовании, но поможет, если вы поймете, как работает http.
http://dev.scrapy.org/ - это относительно новая вещь: целый фреймворк парсинга, основанный на twisted. Я мало с ней играл.

Первые два я использую для своих нужд; например, требуется 20 строк кода, чтобы получить инструмент автоматического тестирования для трехэтапного опроса с имитацией ожидания ввода данных пользователем и т. д.

и его API очень простой ... намного лучше, чем любой DOM-подобный инструмент для меня. Мой друг успешно использовал его для очистки своего старого форума phpbb. У него довольно хорошая документация.

Mechanize [ http://wwwsearch.sourceforge.net/mechanize/] - это клиентская библиотека http, имитирующая веб-браузер. Он обрабатывает файлы cookie, заполняет формы и так далее. Также прост в использовании, но поможет, если вы поймете, как работает http.

http://dev.scrapy.org/ - это относительно новая вещь: целый фреймворк парсинга, основанный на twisted. Я мало с ней играл.

Первые два я использую для своих нужд; например, требуется 20 строк кода, чтобы получить инструмент автоматического тестирования для трехэтапного опроса с имитацией ожидания ввода данных пользователем и т. д.

и его API очень простой ... намного лучше, чем любой DOM-подобный инструмент для меня. Мой друг успешно использовал его для очистки своего старого форума phpbb. У него довольно хорошая документация.

Mechanize [ http://wwwsearch.sourceforge.net/mechanize/] - это клиентская библиотека http, имитирующая веб-браузер. Он обрабатывает файлы cookie, заполняет формы и так далее. Также прост в использовании, но поможет, если вы поймете, как работает http.

http://dev.scrapy.org/ - это относительно новая вещь: целый фреймворк парсинга, основанный на twisted. Я мало с ней играл.

Первые два я использую для своих нужд; например, требуется 20 строк кода, чтобы получить инструмент автоматического тестирования для трехэтапного опроса с имитацией ожидания ввода данных пользователем и т. д.

Мой друг успешно использовал его для очистки своего старого форума phpbb. У него довольно хорошая документация.

Mechanize [ http://wwwsearch.sourceforge.net/mechanize/] - это клиентская библиотека http, имитирующая веб-браузер. Он обрабатывает файлы cookie, заполняет формы и так далее. Также прост в использовании, но поможет, если вы поймете, как работает http.

http://dev.scrapy.org/ - это относительно новая вещь: целый фреймворк парсинга, основанный на twisted. Я мало с ней играл.

Первые два я использую для своих нужд; например, требуется 20 строк кода, чтобы получить инструмент автоматического тестирования для трехэтапного опроса с имитацией ожидания ввода данных пользователем и т. д.

Мой друг успешно использовал его для очистки своего старого форума phpbb. У него довольно хорошая документация.

Mechanize [ http://wwwsearch.sourceforge.net/mechanize/] - это клиентская библиотека http, имитирующая веб-браузер. Он обрабатывает файлы cookie, заполняет формы и так далее. Также прост в использовании, но поможет, если вы поймете, как работает http.

http://dev.scrapy.org/ - это относительно новая вещь: целый фреймворк парсинга, основанный на twisted. Я мало с ней играл.

Первые два я использую для своих нужд; например, требуется 20 строк кода, чтобы получить инструмент автоматического тестирования для трехэтапного опроса с имитацией ожидания ввода данных пользователем и т. д.

заполнение форм и так далее. Также прост в использовании, но поможет, если вы поймете, как работает http.

http://dev.scrapy.org/ - это относительно новая вещь: целый фреймворк парсинга, основанный на twisted. Я мало с ней играл.

Первые два я использую для своих нужд; например, требуется 20 строк кода, чтобы получить инструмент автоматического тестирования для трехэтапного опроса с имитацией ожидания ввода данных пользователем и т. д.

заполнение форм и так далее. Также прост в использовании, но поможет, если вы поймете, как работает http.

http://dev.scrapy.org/ - это относительно новая вещь: целый фреймворк парсинга, основанный на twisted. Я мало с ней играл.

Первые два я использую для своих нужд; например, требуется 20 строк кода, чтобы получить инструмент автоматического тестирования для трехэтапного опроса с имитацией ожидания ввода данных пользователем и т. д.

2

ответ дан 3 September 2019 в 01:22

поделиться

Я сделал скребок экрана на Ruby, который занял около пяти минут. Очевидно этот чувак выдержал 60 секунд! Я не уверен, является ли Ruby настолько масштабируемым или быстрым, как то, что вы ищете, но я никогда не видел более быстрого пути к проверке концепции или прототипу.

Секрет в библиотеке под названием " hpricot ", который был построен именно для этой цели.

Я ничего не знаю о PHP, Python и т. Д.

0

ответ дан 3 September 2019 в 01:22

поделиться

Другие вопросы по тегам:

search search-engine web-crawler

Похожие вопросы: