Есть ли какие-либо стандартные блоки для поисковой системы, которая очистит другие сайты?

Строковое представление по умолчанию для словаря кажется правильным:

>>> a={3: 'foo', 17: 'bar' }
>>> a
{17: 'bar', 3: 'foo'}
>>> print a
{17: 'bar', 3: 'foo'}
>>> print "a=", a
a= {17: 'bar', 3: 'foo'}

Не уверен, что вы можете получить «имя переменной», так как переменные в Python являются просто метками для значений. См. этот вопрос .

1
задан marcamillion 18 June 2009 в 17:42
поделиться

2 ответа

В python есть несколько блоков, которые вы можете используйте.

  1. beautifulsoup [ http: //www.crummy. com / software / BeautifulSoup /] для синтаксического анализа HTML. Он также может обрабатывать плохой код, и его API очень прост ... намного лучше, чем любой DOM-подобный инструмент для меня. Мой друг успешно использовал его для очистки своего старого форума phpbb. У него довольно хорошая документация.
  2. Mechanize [ http://wwwsearch.sourceforge.net/mechanize/] - это клиентская библиотека http, имитирующая веб-браузер. Он обрабатывает файлы cookie, заполняет формы и так далее. Также прост в использовании, но поможет, если вы поймете, как работает http.
  3. http://dev.scrapy.org/ - это относительно новая вещь: целый фреймворк парсинга, основанный на twisted. Я мало с ней играл.

Первые два я использую для своих нужд; например, требуется 20 строк кода, чтобы получить инструмент автоматического тестирования для трехэтапного опроса с имитацией ожидания ввода данных пользователем и т. д.

и его API очень простой ... намного лучше, чем любой DOM-подобный инструмент для меня. Мой друг успешно использовал его для очистки своего старого форума phpbb. У него довольно хорошая документация.
  • Mechanize [ http://wwwsearch.sourceforge.net/mechanize/] - это клиентская библиотека http, имитирующая веб-браузер. Он обрабатывает файлы cookie, заполняет формы и так далее. Также прост в использовании, но поможет, если вы поймете, как работает http.
  • http://dev.scrapy.org/ - это относительно новая вещь: целый фреймворк парсинга, основанный на twisted. Я мало с ней играл.
  • Первые два я использую для своих нужд; например, требуется 20 строк кода, чтобы получить инструмент автоматического тестирования для трехэтапного опроса с имитацией ожидания ввода данных пользователем и т. д.

    и его API очень простой ... намного лучше, чем любой DOM-подобный инструмент для меня. Мой друг успешно использовал его для очистки своего старого форума phpbb. У него довольно хорошая документация.
  • Mechanize [ http://wwwsearch.sourceforge.net/mechanize/] - это клиентская библиотека http, имитирующая веб-браузер. Он обрабатывает файлы cookie, заполняет формы и так далее. Также прост в использовании, но поможет, если вы поймете, как работает http.
  • http://dev.scrapy.org/ - это относительно новая вещь: целый фреймворк парсинга, основанный на twisted. Я мало с ней играл.
  • Первые два я использую для своих нужд; например, требуется 20 строк кода, чтобы получить инструмент автоматического тестирования для трехэтапного опроса с имитацией ожидания ввода данных пользователем и т. д.

    Мой друг успешно использовал его для очистки своего старого форума phpbb. У него довольно хорошая документация.
  • Mechanize [ http://wwwsearch.sourceforge.net/mechanize/] - это клиентская библиотека http, имитирующая веб-браузер. Он обрабатывает файлы cookie, заполняет формы и так далее. Также прост в использовании, но поможет, если вы поймете, как работает http.
  • http://dev.scrapy.org/ - это относительно новая вещь: целый фреймворк парсинга, основанный на twisted. Я мало с ней играл.
  • Первые два я использую для своих нужд; например, требуется 20 строк кода, чтобы получить инструмент автоматического тестирования для трехэтапного опроса с имитацией ожидания ввода данных пользователем и т. д.

    Мой друг успешно использовал его для очистки своего старого форума phpbb. У него довольно хорошая документация.
  • Mechanize [ http://wwwsearch.sourceforge.net/mechanize/] - это клиентская библиотека http, имитирующая веб-браузер. Он обрабатывает файлы cookie, заполняет формы и так далее. Также прост в использовании, но поможет, если вы поймете, как работает http.
  • http://dev.scrapy.org/ - это относительно новая вещь: целый фреймворк парсинга, основанный на twisted. Я мало с ней играл.
  • Первые два я использую для своих нужд; например, требуется 20 строк кода, чтобы получить инструмент автоматического тестирования для трехэтапного опроса с имитацией ожидания ввода данных пользователем и т. д.

    заполнение форм и так далее. Также прост в использовании, но поможет, если вы поймете, как работает http.
  • http://dev.scrapy.org/ - это относительно новая вещь: целый фреймворк парсинга, основанный на twisted. Я мало с ней играл.
  • Первые два я использую для своих нужд; например, требуется 20 строк кода, чтобы получить инструмент автоматического тестирования для трехэтапного опроса с имитацией ожидания ввода данных пользователем и т. д.

    заполнение форм и так далее. Также прост в использовании, но поможет, если вы поймете, как работает http.
  • http://dev.scrapy.org/ - это относительно новая вещь: целый фреймворк парсинга, основанный на twisted. Я мало с ней играл.
  • Первые два я использую для своих нужд; например, требуется 20 строк кода, чтобы получить инструмент автоматического тестирования для трехэтапного опроса с имитацией ожидания ввода данных пользователем и т. д.

    2
    ответ дан 3 September 2019 в 01:22
    поделиться

    Я сделал скребок экрана на Ruby, который занял около пяти минут. Очевидно этот чувак выдержал 60 секунд! Я не уверен, является ли Ruby настолько масштабируемым или быстрым, как то, что вы ищете, но я никогда не видел более быстрого пути к проверке концепции или прототипу.

    Секрет в библиотеке под названием " hpricot ", который был построен именно для этой цели.

    Я ничего не знаю о PHP, Python и т. Д.

    0
    ответ дан 3 September 2019 в 01:22
    поделиться
    Другие вопросы по тегам:

    Похожие вопросы: