0
ответов

Создание универсального паука Scrapy

Мой вопрос действительно заключается в том, как сделать то же самое, что и предыдущий вопрос, но в Scrapy 0.14. Использование одного паука Scrapy для нескольких веб-сайтов По сути, у меня есть графический интерфейс, который принимает такие параметры, как
вопрос задан: 23 May 2017 12:07
0
ответов

Scrapy разрешает все домены

Я видел этот пост, чтобы сделать сканирование любого сайта без ограничения разрешенных доменов. Есть ли лучший способ сделать это, например, используя регулярное выражение в переменной разрешенных доменов, например- ...
вопрос задан: 23 May 2017 11:45
0
ответов

как хранить скрап-изображения на Amazon S3?

Я использую Scrapy уже около недели и хочу сохранить изображения на amazon S3, и они упомянули, что поддерживают загрузку изображений на amazon S3, но это не задокументировано. Кто-нибудь знает...
вопрос задан: 1 March 2017 20:35
0
ответов

Как задать задержку между каждым запросом в scrapy?

Я не хочу сканировать одновременно и заблокироваться. Я хочу отправлять один запрос в секунду.
вопрос задан: 19 January 2017 13:45
0
ответов

как реализовать вложенный элемент в scrapy?

Я очищаю некоторые данные со сложной иерархической информацией, и мне нужно экспортировать результат в json. Я определил элементы как class FamilyItem ():name = Field ()sons = Field ()class SonsItem ():...
вопрос задан: 11 November 2016 01:48
0
ответов

Попытка включить Scrapy в проект для запуска команды Crawl

Я новичок в Python и Scrapy, и я прохожу через руководство по Scrapy. Мне удалось создать свой проект, используя интерфейс DOS и набрав: scrapy startproject dmoz Далее в руководстве упоминается ...
вопрос задан: 20 July 2016 14:28
0
ответов

Как вернуть правильный ответ при ошибке в ASP.NET MVC 3.0 через JSON?

Я изо всех сил пытаюсь решить эту проблему. На моем локальном компьютере (Win7 / VS2010 / IIS 7.5) и другом идентичном компьютере разработчика следующий код возвращает код состояния 500, а в тексте ответа говорится: «...
вопрос задан: 23 May 2016 14:03
0
ответов

Scrapy - как определить уже очищенные URL

Я использую scrapy для ежедневного сканирования новостного веб-сайта. Как запретить scrapy очищать уже очищенные URL. Также есть четкая документация или примеры по SgmlLinkExtractor.
вопрос задан: 13 April 2016 13:57
0
ответов

Лучший способ для новичка изучить очистку экрана с помощью Python

Это может быть один из тех вопросов, которые трудно решить ответ, но здесь: я не считаю себя программистом - но я бы хотел :-) Я выучил R, потому что мне надоел spss, ...
вопрос задан: 5 April 2016 07:07
0
ответов

Запись элементов в базу данных MySQL в Scrapy

Я новичок в Scrapy, у меня был класс кода паука Example_spider(BaseSpider): name = "example" allow_domains = ["www.example.com"] def start_requests( self): yield self....
вопрос задан: 31 March 2016 08:48
0
ответов

Как удалить запрос из URL-адреса?

Я использую scrapy для сканирования сайта, который, кажется, добавляет случайные значения в строку запроса в конце каждого URL-адреса. Это превращает сканирование в своего рода бесконечный цикл. Как сделать scrapy ...
вопрос задан: 18 March 2016 12:02
0
ответов

Запуск пауков Scrapy в задаче Celery

У меня есть сайт Django, на котором происходит очистка, когда пользователь запрашивает его, и мой код запускает автономный скрипт Scrapy Spider в новом процессе. Естественно, это не работает с увеличением пользователей....
вопрос задан: 19 December 2015 09:04
0
ответов

Scrapy: ImportError: No module named items

Когда я пытаюсь запустить scrapy, я получаю эту ошибку ImportError: No module named items Я только что добавил в items.py список вещей, которые я хочу очистить, и в пауке. py Я импортировал класс из...
вопрос задан: 25 October 2015 14:37
0
ответов

Зачистка ответа JSON с помощью Scrapy

Как вы используете Scrapy для очистки веб-запросов, которые возвращают JSON? Например, JSON будет выглядеть следующим образом: {"firstName": "John", "lastName": "Smith", "age": 25, "address": {"...
вопрос задан: 3 October 2015 17:38
0
ответов

Scrapy start_urls

Сценарий (ниже) из этого руководства содержит два start_urls. из scrapy.spider import Spider from scrapy.selector import Selector from dirbot.items import Класс веб-сайта DmozSpider (Spider): ...
вопрос задан: 2 June 2015 00:03
0
ответов

возвращаемый список загрузчика элемента scrapy не одно значение

Я использую скрап 0,20. Я хочу использовать загрузчик элементов, это мой код: l = XPathItemLoader (item = MyItemClass (), response = response) l.add_value ('url', response.url) l.add_xpath ('title', "...
вопрос задан: 10 December 2014 01:36
0
ответов

Scrapy CrawlSpider: как получить доступ к элементу на разных уровнях анализа

Я просматриваю веб-сайт (только два уровня в глубину), и я хочу собрать информацию с сайтов на обоих уровнях. Проблема, с которой я столкнулся, заключается в том, что я хочу заполнить поля одного элемента информацией...
вопрос задан: 18 October 2014 15:03
0
ответов

Ошибка при установке скрапа

Я пытаюсь установить scrapy, выдает следующую ошибку: Загрузка / распаковка криптографии> = 0.2.1 (из pyOpenSSL-> Scrapy) Запуск setup.py egg_info для пакета криптографии Package ...
вопрос задан: 23 July 2014 18:09
0
ответов

Ruby alternative to Scrapy? [closed]

What are some Ruby-based tools that can help me achive something similar to what Scrapy does for python? http://doc.scrapy.org/intro/overview.html
вопрос задан: 10 July 2014 17:58
0
ответов

Очистка данных без явного определения каждого поля для очистки

Я хочу очистить страницу данных (с помощью библиотеки Python Scrapy) без необходимости определять каждое отдельное поле на странице . Вместо этого я хочу динамически генерировать поля, используя идентификатор элемента ...
вопрос задан: 6 July 2014 16:12
0
ответов

Следует ли мне создавать конвейер для сохранения файлов с помощью scrapy?

Мне нужно сохранить файл (.pdf), но я не знаю, как это сделать. Мне нужно сохранить .pdf-файлы и хранить их таким образом, чтобы они были организованы в каталогах так же, как они хранятся на сайте, который я просматриваю ...
вопрос задан: 24 May 2014 13:58
0
ответов

Как мне использовать модуль Python Scrapy для вывода списка всех URL-адресов с моего веб-сайта?

Я хочу использовать модуль Python Scrapy для очистки всех URL-адресов с моего веб-сайта и записать список в файл. Я просмотрел примеры, но не нашел простого примера для этого.
вопрос задан: 14 April 2014 19:09
0
ответов

Как включить начальный URL-адрес в правило «разрешить» в SgmlLinkExtractor с помощью сканирования scrapy spider

Я просмотрел множество тем, но, похоже, не нашел ответа на свой конкретный вопрос. Я создал поискового робота для веб-сайта, и он отлично работает. Затем я сделал похожее сканирование ...
вопрос задан: 14 April 2014 19:01
0
ответов

Лучший сканер веб-графиков для скорости?

В течение последнего месяца я использовал Scrapy для проекта веб-сканирования, который я начал. Этот проект включает в себя раскрытие всего содержимого документа всех веб-страниц в одном доменном имени, которые ...
вопрос задан: 14 April 2014 18:52
0
ответов

Загрузка изображения Scrapy, как использовать настраиваемое имя файла

Для моего проекта scrapy я сейчас использую ImagesPipeline. Загруженные изображения хранятся с хешем SHA1 их URL-адресов в качестве имен файлов. Как я могу хранить файлы, используя свой собственный файл ...
вопрос задан: 21 February 2014 16:28
0
ответов

Scrap Run паук из сценария

Я хочу запускать своего паука из сценария, а не сканировать в лом. Я нашел эту страницу http://doc.scrapy.org/en/latest/topics/practices.html, но на самом деле там не сказано, куда поместить этот сценарий. Любые ...
вопрос задан: 10 February 2014 04:53
0
ответов

Python Scrapy для автономных (локальных) данных

У меня есть набор данных 270 МБ (10000 файлов HTML) на моем компьютере. Могу ли я использовать Scrapy для локального сканирования этого набора данных? Как?
вопрос задан: 22 December 2013 19:43
0
ответов

Scrapy: перейдите по ссылке, чтобы получить дополнительные данные об элементе?

У меня нет конкретной проблемы с кодом. Я просто не уверен, как решить следующую проблему с логистической точки зрения с помощью фреймворка Scrapy: структура данных, которые я хочу для очистки обычно используется строка таблицы ...
вопрос задан: 27 November 2013 17:26
0
ответов

Загрузка изображений с помощью scrapy

Я начинаю с scrapy, и у меня первая реальная проблема. Это загрузка картинок. Так это мой паук. из scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.selector import ...
вопрос задан: 25 October 2013 08:44
0
ответов

Сканер Scrapy в Python не может переходить по ссылкам?

Я написал искатель на Python, используя инструмент scrapy Python. Ниже приведен код Python: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import ...
вопрос задан: 22 June 2013 14:20