0
ответов

Ошибка Scrapy spider not found

Это Windows 7 с python 2.7. У меня есть проект scrapy в каталоге с именем caps (здесь находится scrapy.cfg). Мой паук находится в caps\caps\spiders\campSpider. py Я захожу в скрап...
вопрос задан: 26 March 2012 17:27
0
ответов

Scrapy + Eclipse PyDev: как настроить отладчик?

Я успешно настроил Eclipse для своего проекта Scrapy. Я сделал это, установив новую конфигурацию запуска/отладки: чей основной модуль ссылается на Scrapy /usr/local/bin/scrapy для меня (я нашел предложение ...
вопрос задан: 21 March 2012 17:20
0
ответов

Scrapy считывает список URL из файла для сканирования?

Я только что установил scrapy и последовал их простому учебнику по dmoz, который работает. Я только что изучил базовую работу с файлами для python и попытался заставить краулер прочитать список URL из файла, но получил ...
вопрос задан: 16 March 2012 20:16
0
ответов

Код состояния Scrapy и ответа: как его проверить?

Я использую scrapy для сканирования моей карты сайта, чтобы проверить наличие 404, 302 и 200 страниц. Но я не могу получить код ответа. Это мой код на данный момент: импорт из scrapy.contrib.spiders ...
вопрос задан: 14 March 2012 08:40
0
ответов

Как указать URL для сканирования?

Я хочу использовать scrapy для сканирования веб-страниц. Есть ли способ передать начальный URL-адрес из самого терминала? В документации указано, что можно указать либо имя паука, либо URL,...
вопрос задан: 13 March 2012 09:11
0
ответов

Значение jobid Scrapyd внутри паука

Framework Scrapy - сервер Scrapyd. У меня есть проблема с получением значения jobid внутри паука. После отправки данных на http://localhost:6800/schedule.json ответ будет status = ok jobid = ...
вопрос задан: 11 March 2012 04:28
0
ответов

Как заставить scrapy crawl прерываться и выходить при первом исключении?

В целях разработки я хотел бы остановить всю деятельность scrapy crawling, как только возникнет первое исключение (в пауке или трубопроводе). Любой совет?
вопрос задан: 1 March 2012 22:46
0
ответов

Scrapy 's Scrapyd слишком медленно с планированием пауков

Я запускаю Scrapyd и сталкиваюсь со странной проблемой при запуске 4 пауков одновременно. 2012-02-06 15:27:17+0100 [HTTPChannel,0,127.0.0.1] 127.0.0.1 - - [06/Feb/2012:14:27:16 +0000] "POST /...
вопрос задан: 6 February 2012 14:34
0
ответов

Установка scrapy/pyopenssl в virtualenv Windows

Я пытаюсь установить scrapy на Windows XP (32bit) virtualenv: pip install scrapy Программа установки выдает это двусмысленное сообщение об ошибке: error: Найдены только неправильные каталоги OpenSSL: ['E:\\\cygwin'...
вопрос задан: 5 February 2012 17:29
0
ответов

Получить имя паука в экспортере корма scrapy

Можно ли получить доступ к имени текущего паука в экспортере корма?
вопрос задан: 23 January 2012 08:26
0
ответов

Пользовательский экспортер Scrapy

Я определяю экспортер элементов, который помещает элементы в очередь сообщений. Ниже приведен код. из scrapy.contrib.exporter импорт JsonLinesItemExporter из scrapy.utils.serialize импорт ScrapyJSONEncoder ...
вопрос задан: 18 January 2012 15:15
0
ответов

Итерация по словарю в Python и удаление пробелов

Я работаю со средой очистки веб-страниц Scrapy, и я немного новичок, когда дело касается Python. Так что мне интересно, как мне перебрать все очищенные элементы, которые, кажется, есть в словаре ...
вопрос задан: 18 January 2012 09:33
0
ответов

scrapy HtmlXPathSelector из строки [closed]

У меня есть html-ответ в строке. Я пытаюсь сделать из него HtmlXPathSelector, чтобы я мог использовать на нем xpaths. Но он показывает, TypeError: не может создать слабую ссылку на 'str' obj Любая идея ...
вопрос задан: 10 January 2012 05:05
0
ответов

динамические start_urls в scrapy

Я использую scrapy для сканирования нескольких страниц на сайте. Переменная start_urls используется для определения страниц для сканирования. Сначала я бы начал с 1-й страницы, определив таким образом start_urls = [1st page] в ...
вопрос задан: 10 January 2012 03:35
0
ответов

Как повторить попытку для ссылки 404, не найденной в scrapy?

Некоторые сайты временно выдают ошибку 404. Но я вставляю в браузер, он работает. Как сообщить scrapy, что нужно 5 раз повторить попытку ссылки с кодом состояния 404.
вопрос задан: 7 January 2012 09:13
0
ответов

Сохранение разрывов строк при синтаксическом анализе с помощью Scrapy в Python

Я написал паука Scrapy, который извлекает текст со страницы. Паук правильно разбирает и выводит данные на многих страницах, но на некоторых сбрасывается. Я пытаюсь сохранить разрывы строк и форматирование ...
вопрос задан: 5 January 2012 18:50
0
ответов

Доступ к cookie сеанса в пауках scrapy

Я пытаюсь получить доступ к cookie сеанса в пауке. Сначала я вхожу в социальную сеть, используя в пауке: def parse (self, response): return [FormRequest.from_response (response, ...
вопрос задан: 3 January 2012 07:15
0
ответов

Будучи хорошим гражданином и занимаюсь поиском веб-страниц

, у меня вопрос состоит из двух частей. Сначала я пишу веб-скребок на основе паука CrawlSpider в Scrapy. Я собираюсь очистить веб-сайт, на котором много тысяч (возможно, до сотен тысяч) ...
вопрос задан: 17 December 2011 04:18
0
ответов

Scrapy отслеживает и очищает запрещенные ссылки

У меня есть CrawlSpider, настроенный для перехода по определенным ссылкам и очистки журнала новостей, где ссылки на каждую проблему соответствуют следующей схеме URL: http://example.com/ YYYY / DDDD / index.htm, где YYYY - это ...
вопрос задан: 16 December 2011 18:19
0
ответов

Scrapy - одновременное ведение журнала в файл и стандартный вывод, с именами пауков

Я решил использовать модуль ведения журнала Python, потому что сообщения, генерируемые Twisted при ошибке std, слишком длинные, и я хочу, чтобы содержательные сообщения уровня INFO, такие как как сообщения, сгенерированные ...
вопрос задан: 16 December 2011 11:07
0
ответов

Python Scrapy: ဆွေမျိုးလမ်းကြောင်းများအားအကြွင်းမဲ့လမ်းကြောင်းသို့ပြောင်းပါ။

ကျွန်ုပ်သည်အောက်ပါဖြေရှင်းနည်းများကို အခြေခံ၍ ကုဒ်ကိုပြင်ဆင်ခဲ့ပြီး၊ ငါဒီမှာကုဒ်အောက်တွင်ဖော်ပြထားသောအမှားရ။ scrapy.spider တင်သွင်း BaseSpider ကနေ scrapy.selector တင်သွင်းမှုမှ ...
вопрос задан: 15 December 2011 06:23
0
ответов

Как я могу использовать разные конвейеры для разных пауков в одном проекте Scrapy

У меня есть проект scrapy, который содержит несколько пауков. Могу ли я каким-то образом можете определить, какие конвейеры использовать для какого паука? Не все конвейеры, которые я определил, применимы для каждого паука. ...
вопрос задан: 4 December 2011 03:44
0
ответов

scrapy python, похоже, не получает данные со всех доступных URL-адресов

Я пытаюсь очистить thisssion.org, чтобы создать таблицу, сколько раз каждая мелодия была добавлен в сборники песен участника, так что я могу найти некоторые популярные пьесы для изучения. Я начал со скрапинга ...
вопрос задан: 27 November 2011 07:00
0
ответов

с использованием tor с scrapy framework

Я пытаюсь сканировать веб-сайт, который достаточно сложен, чтобы останавливать ботов, я имею в виду, что он разрешает только несколько запросов, после этого Scrapy зависает. Вопрос 1: есть ли способ, если Scrapy зависает, я могу ...
вопрос задан: 11 November 2011 18:47
0
ответов

Как объединить scrapy и htmlunit для сканирования URL-адресов с помощью javascript

Я работаю над Scrapy для сканирования страниц, однако я не могу обрабатывать страницы с помощью javascript. { {1}} Люди предлагают мне использовать htmlunit, поэтому я установил его, но я вообще не знаю, как его использовать. Пусть кто угодно может ...
вопрос задан: 8 November 2011 08:25
0
ответов

Выполнение задач Scrapy в Python

Мой скрипт Scrapy, кажется, работает нормально, когда я запускаю его в сценариях «одноразового использования» из командной строки, но если я попытаюсь запустить код дважды в одном сеансе Python, я получаю следующее error: "...
вопрос задан: 3 November 2011 10:55
0
ответов

Воспроизвести паук Scrapy на сохраненных данных

Я начал использовать Scrapy для очистки нескольких веб-сайтов. Если я позже добавлю новое поле в свою модель или изменю свои функции синтаксического анализа, я хотел бы иметь возможность «воспроизвести» загруженные необработанные данные в автономном режи
вопрос задан: 14 October 2011 10:34
0
ответов

Как я могу остановить Scrapy Crawlspider и позже резюме, где он ушел?

У меня есть Scrapy CrawlSpider, который имеет очень большой список URL-адресов для ползания. Я хотел бы иметь возможность остановить его, сохраняя текущее состояние и возобновить его позже без наступления. Есть ли путь ...
вопрос задан: 5 September 2011 19:52
0
ответов

Python Scrapy: как заставить CSVItemExporter записывать столбцы в определенном порядке

В Scrapy мои элементы указаны в определенном порядке в items.py, и мой паук снова имеет эти элементы в том же порядке. Однако, когда я запускаю паука и сохраняю результаты как csv, столбец ...
вопрос задан: 4 August 2011 15:03
0
ответов

Как лучше всего экспортировать информацию из поискового робота Scrapy в базу данных приложения Django?

Я пытаюсь создать приложение Django, которое функционирует как магазин. Элементы собираются со всего Интернета и постоянно обновляют базу данных проекта Django (скажем, каждые несколько дней). Я ...
вопрос задан: 29 July 2011 20:58