0
ответов

Как использовать CrawlSpider от пестрого для щелчка на ссылку с JavaScript onclick?

Я хочу пестрый проверить страницы, где продолжение к следующей ссылке похоже на это: <href = "#" onclick = "возвращают gotoPage ('2')";> Следующий </a> Будет пестрый мочь интерпретировать код JavaScript...
вопрос задан: 24 March 2013 00:21
0
ответов

как программно войти в Yahoo с сервера ubuntu

Я хотел бы войти в свою учетную запись Yahoo из сценария, работающего на сервере Ubuntu. Я пытался использовать python с механизацией, но в моем плане есть недостаток. Это код, который у меня есть на данный момент....
вопрос задан: 29 August 2012 17:35
0
ответов

как установить время ожидания TCP-подключения в scrapy?

При сканировании медленного веб-сайта я всегда получаю сообщение об ошибке :Время ожидания TCP-соединения истекло :10060. Я предполагаю, что это может произойти, когда сканер пытается установить TCP-соединение с сервером, а по умолчанию...
вопрос задан: 17 August 2012 09:31
0
ответов

Использование прокси-сервера Tor со скрейпом

Мне нужна помощь в настройке Tor в Ubuntu и использовании его в среде scrapy. Я провел небольшое исследование и нашел это руководство :class RetryChangeProxyMiddleware (RetryMiddleware ):def _retry (self,...
вопрос задан: 23 July 2012 06:27
0
ответов

определение языка веб-сайта python

Я пишу бота, который может просто проверить тысячи веб-сайтов, независимо от того, на английском они или нет. я использую Scrapy (python 2.7 framework )для сканирования первой страницы каждого веб-сайта, может ли кто-нибудь предложить мне...
вопрос задан: 16 July 2012 15:22
0
ответов

ошибка при развертывании проекта с помощью scrapyd

У меня было несколько пауков в папке моего проекта, и я хотел запустить всех пауков одновременно, поэтому я решил запустить их с помощью службы scrapyd. Я начал делать это, увидев здесь Прежде всего я в...
вопрос задан: 9 July 2012 04:38
0
ответов

Невозможно определить пользовательское промежуточное ПО загрузчика в Scrapy

Я пытаюсь настроить собственный класс промежуточного программного обеспечения загрузчика в Scrapy. Я подозреваю, что пропустил что-то очевидное, но я несколько раз перечитал документы и не нашел решений. Я получаю...
вопрос задан: 7 July 2012 05:17
0
ответов

Запись общего времени, затраченного на запуск паука в scrapy.

Я использую scrapy для очистки сайта. Я написал паук, извлек все элементы со страницы и сохранил в файл csv, и теперь я хочу сохранить общее время выполнения, затраченное scrapy на запуск ...
вопрос задан: 28 June 2012 13:09
0
ответов

Scrapy FormRequest отправляет JSON

Я пытаюсь создать FormRequest, который может отправлять содержимое -типа :application/json. Вот что я пытаюсь :дать FormRequest ("abc.someurl.com", formdata=json.dumps ({"referenceId" :123,"referenceType" :456} ),...
вопрос задан: 28 June 2012 01:03
0
ответов

Каков самый простой способ программно запустить сканер в Scrapy >= 0.14

Я хочу запустить сканер в Scrapy из модуля Python.Я хочу, по сути, имитировать сущность $ scrapy crawl my_crawler -a some_arg=value -L DEBUG У меня есть следующие вещи: a ...
вопрос задан: 26 June 2012 18:34
0
ответов

вход в систему для аутентификации с помощью куки-файлов

я новичок в работе со скрэпом и решил попробовать его из-за хороших отзывов в Интернете. Я пытаюсь войти на сайт с помощью scrapy. Я успешно вошел в систему с комбинацией селена и механизации ...
вопрос задан: 26 June 2012 04:51
0
ответов

как обрабатывать все виды исключений в проекте scrapy, в errback и обратном вызове ?

В настоящее время я работаю над проектом парсера, который очень важен для обеспечения правильной обработки КАЖДОГО запроса, то есть либо для регистрации ошибки, либо для сохранения успешного результата. Я уже реализовал...
вопрос задан: 17 June 2012 05:46
0
ответов

Захват кодов статуса http с помощью программы scrapy

Я новичок в работе со scrapy. Я пишу паука, предназначенного для проверки длинного списка URL-адресов на наличие кодов состояния сервера и, при необходимости, на какие URL-адреса они перенаправляются. Главное, если есть цепочка...
вопрос задан: 13 June 2012 15:29
0
ответов

Запуск нескольких пауков в scrapy

Например, в scrapy, если у меня есть два URL-адреса, которые содержат разные HTML. Теперь я хочу написать двух отдельных пауков каждый за одного и хочу запустить обоих пауков одновременно. В scrapy можно запустить ...
вопрос задан: 8 June 2012 05:58
0
ответов

Получение ошибки gcc failed при установке scrapy

Когда я устанавливаю scrapy, я получаю следующую ошибку (команда 'gcc' не удалась со статусом выхода 1). Я использую Centos, и да, у меня установлена ​​последняя версия gcc. Но я не уверен, почему я ...
вопрос задан: 7 June 2012 07:38
0
ответов

О модели параллелизма в scrapy

Теперь я планирую использовать scrapy в более распределенном подходе, и я не уверен, размещены ли пауки/конвейеры/загрузчики/планировщики и движок в отдельных процессах или потоках, может кто-нибудь ...
вопрос задан: 7 June 2012 03:09
0
ответов

очистка файла с html, сохраненного в локальной системе

Например, у меня был сайт "www.example.com" На самом деле я хочу очистить html этого сайта, сохранив его в локальной системе. поэтому для тестирования я сохранил эту страницу на рабочем столе как example.html. Теперь у меня было...
вопрос задан: 5 June 2012 10:32
0
ответов

Scrapy-паук :, работающий со страницами с неправильно -определенной кодировкой символов

Обновление :эту ошибку можно воспроизвести, просто запустив ее из командной строки :scrapy shell http://www.indiegogo.com/Straight-Talk-About-Your-FutureЯ использую Scrapy для обхода веб-сайта. Каждый...
вопрос задан: 2 June 2012 23:01
0
ответов

как перезаписать / использовать файлы cookie в scrapy

Я хочу удалить http://www.3andena.com/, этот веб-сайт начинается сначала на арабском языке , и сохраняет языковые настройки в файлах cookie. Если вы попытались получить доступ к языковой версии напрямую через URL-адрес (http://...
вопрос задан: 30 May 2012 19:32
0
ответов

Одновременный запуск нескольких пауков с помощью scrapyd.

Я использую скрейпи для проекта, в котором я хочу парсить несколько сайтов (возможно, сотни), и мне нужно написать отдельный паук для каждого сайта. Я могу запланировать одного паука в проекте, развернутом на ...
вопрос задан: 29 May 2012 15:37
0
ответов

Объединение базового URL-адреса с полученным href в scrapy

ниже — мой код паука, класс Blurb2Spider(BaseSpider): name = "blurb2" allow_domains = ["www.domain.com "] def start_requests(self): yield self.make_requests_from_url("http://...
вопрос задан: 29 May 2012 11:20
0
ответов

Попытка установить Scrapy - ошибка: Не удалось найти «openssl.exe»

Есть мысли, как решить эту проблему? Я использую pip для установки Scrapy на машину с Win XP Pro SP 3. У меня на машине установлен Python 2.7. Кажется, проблема с pyOpenSSL. Я...
вопрос задан: 22 May 2012 16:34
0
ответов

Captchas в Scrapy

Я работаю над приложением Scrapy, в котором я пытаюсь войти на сайт с помощью формы, в которой используется captcha (это не спам). Я использую ImagesPipeline для загрузки капчи и печатаю ее на экране ...
вопрос задан: 21 May 2012 14:55
0
ответов

Выполнение функций формы отправки Javascript с использованием scrapy в python

Я удаляю сайт с использованием фреймворка scrapy и не могу щелкнуть ссылку javascript для открытия другой страницы. Я могу идентифицировать код на странице как:
вопрос задан: 18 May 2012 08:32
0
ответов

HTML XPath: Извлечение текста, смешанного с несколькими тегами?

Цель: Извлечь текст из определенного элемента (например, li), игнорируя различные смешанные теги, т.е. свести дочерний элемент первого уровня и просто вернуть объединенный текст каждого сглаженного дочернего элемента...
вопрос задан: 16 May 2012 11:58
0
ответов

Как получить доступ к определенному start_url в Scrapy CrawlSpider?

Я использую Scrapy, в частности класс CrawlSpider Scrapy, для извлечения веб-ссылок, содержащих определенные ключевые слова. У меня есть довольно длинный список start_urls, который берет свои записи из базы данных SQLite, которая...
вопрос задан: 15 May 2012 10:22
0
ответов

Скрэпи. Как изменить настройки паука после начала сканирования?

Я не могу изменить настройки паука в методе синтаксического анализа. Но это определенно должен быть способ. Например: class SomeSpider(BaseSpider): name = 'mySpider' allow_domains = ['example.com'] ...
вопрос задан: 15 May 2012 01:55
0
ответов

Scrapy, похоже, не выполняет DFO

У меня есть веб-сайт, для которого мой поисковый робот должен следовать последовательности. Так, например, ему нужно пройти a1, b1, c1, прежде чем он начнет переходить на a2 и т. Д. Каждый из a, b и c обрабатывается разными функциями синтаксического анал
вопрос задан: 14 May 2012 23:47
0
ответов

Хранилище базы данных :Почему Pipeline лучше, чем Feed Export?

Это вопрос о scrapy. Почему при хранении элементов в базе данных обычно используется конвейер, а не механизм экспорта ленты? Feed Exports -Вывод очищенных данных...
вопрос задан: 18 April 2012 08:00
0
ответов

неизвестная команда: ошибка сканирования

Я новичок в python. Я использую 32-битную версию python 2.7.3 на 64-битной ОС. (Я пробовал 64-битную версию, но это не сработало). Я следовал инструкциям и установил на свой компьютер scrapy. Я создал один...
вопрос задан: 12 April 2012 12:00