scrapy - список вопросов по программированию scrapy

25

ответов

Не удалось установить Twisted [duplicate]

Я пытаюсь установить scrapy. После получения ошибки: x86_64-linux-gnu-gcc -pthread -DNDEBUG -g -fwrapv -O2 -Wall -g -fstack-protector-strong -Wformat -Werror = format-security -Wdate-time -...

python-3.x scrapy twisted

вопрос задан: 3 February 2014 17:16

6

ответов

кодировка текста скрапа

Вот мой паук из scrapy.contrib.spiders import CrawlSpider, Правило из scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor из scrapy.selector import HtmlXPathSelector из vrisko.items ...

scrapy

вопрос задан: 8 February 2012 16:27

4

ответа

как извлечь текст, написанный вне тега h4, используя scrapy python

поле помечено синим, это поле, которое я пытаюсь очистить < h4 class = "inline" > Бюджет: < / h4 > "€ 650 000" ...

python web-scraping scrapy imdb

вопрос задан: 18 January 2019 20:35

3

ответа

удалить все атрибуты данных с помощью etree из всех элементов

Поэтому я пытаюсь очистить HTML. У меня есть следующая функция: def clean_html (self, html): replace_html = html.decode ('utf-8'). Replace ('<', '<') tree = etree.HTML (...

python python-3.x scrapy lxml elementtree

вопрос задан: 11 March 2019 12:21

3

ответа

Код состояния 999 при попытке входа в систему с помощью scrapy [duplicate]

Я пытаюсь использовать Scrapy для извлечения некоторой информации из LinkedIn. Это мой скребок для обхода профиля linkedin. Когда я запускаю этот код, он отображает код состояния 999 на ...

python scrapy

вопрос задан: 19 December 2014 19:40

3

ответа

Извлекать ссылки, содержащие выделенный текст со шведскими символами [дубликат]

Я хочу извлечь ссылки с Scrapy с веб-страницы, где язык является шведским, а конкретная ссылка содержит «Nästa», например. Nästa Использование: response.xpath ('* // a [содержит (., "Nästa")] / @ href') ....

python xpath scrapy

вопрос задан: 7 October 2013 18:51

3

ответа

Используя одного паука Scrapy для нескольких веб-сайтов

Я должен создать пользователя настраиваемый поисковый робот / поисковый робот, и я думаю об использовании Scrapy. Но, я не могу твердый код домены и позволенный URL regex:es - это будет вместо этого настраиваться в GUI...

python web-crawler scrapy

вопрос задан: 7 March 2010 14:18

2

ответа

Scrapy не распознает xpath

Я пытаюсь получить данные с этой страницы https://octopart.com/electronic-parts/integrated-circuits-ics, но с помощью кнопки Specs. Я пытаюсь получить названия продуктов с этим кодом, но это не работает. ...

python xpath web-scraping scrapy

вопрос задан: 21 March 2019 19:39

2

ответа

Как получить запрос Scrapy, чтобы перейти на следующую страницу?

Мне нужно проанализировать код страны каждого комментария на моей веб-странице, а затем сохранить его в файле json, но у меня возникает проблема при попытке перейти на следующую страницу. Я не уверен, правильно ли я использовал ...

python-3.x scrapy

вопрос задан: 19 January 2019 15:28

2

ответа

Scrapy Crawler для рекурсивного разбора данных не может перезвонить

Я новичок, и я написал скрипт в Python Scrapy, чтобы получить информацию рекурсивно. Во-первых, он очищает ссылки города, включая информацию о турах, затем отслеживает все города и достигает ...

python scrapy

вопрос задан: 18 January 2019 19:21

2

ответа

найти правильный селектор для нумерации страниц с помощью скрапа

Я пытаюсь извлечь данные из этого форума: https://schwangerschaft.gofeminin.de/forum/. Все данные я получаю с первой страницы. Я использую селектор css li.selected > a :: attr (href) 'К сожалению, я ...

python xpath scrapy css-selectors web-crawler

вопрос задан: 18 January 2019 08:42

2

ответа

Я хочу добавить класс предметов в класс предметов

Конечным JSON будет: "адрес": ----, "штат": ----, год: {"первый": ----, "второй": {"основной": ----,. ..

python scrapy scrapy-spider

вопрос задан: 18 January 2019 06:37

2

ответа

IMDB Movie Scraping дает пустой CSV с использованием Scrapy

Я получаю пустой CSV, хотя он не показывает каких-либо ошибок в коде. Невозможно просканировать веб-страницу. Это код, который я написал со ссылкой на YouTube: - импортировать scrapy из Example.items ...

web-scraping export-to-csv python scrapy

вопрос задан: 17 January 2019 14:14

2

ответа

сопоставить URL-адреса изображений с использованием [duplicate]

Я использую findall для соответствия этой части html var images = ["https://file-comic-3.anyacg.co/images/b0/96/b096b8a41eb81a90ab798afb094e75670b12b646_205789_728_1043.jpg","https://file-comic-3 .anyacg ....

regex scrapy

вопрос задан: 10 August 2015 16:01

2

ответа

Почему я не могу использовать Scrapy для сканирования из URL-адреса (с «& amp;» в нем)? [Дубликат]

Я нашел следующее сообщение: Почему я не могу использовать Scrapy для сканирования из этого URL-адреса (с «& quot;» & quot; в нем)? но я не совсем уверен, есть ли у меня такая же проблема ... И попробовал это: я не могу использовать ...

python html shell request scrapy

вопрос задан: 6 September 2014 21:50

2

ответа

Вопрос Scrapy SgmlLinkExtractor

Я пытаюсь сделать SgmlLinkExtractor для работы. Это - подпись: SgmlLinkExtractor (позволяют = (), отклоняют = (), allow_domains = (), deny_domains = (), restrict_xpaths (), теги = ('a', 'область'), attrs = ('href')...

python web-crawler scrapy

вопрос задан: 27 November 2009 17:12

1

ответ

Откуда: & ldquo; ОШИБКА: обработка ошибок паука < GET & hellip; & rdquo; в скрапе?

Я читаю журнал с запуском предыдущего паука. Мне любопытно узнать, откуда взято это исключение и как я могу на него реагировать: 2019-04-12 22:00:55 [scrapy.core.scraper] ОШИБКА: ошибка паука ...

python logging scrapy error-logging

вопрос задан: 14 April 2019 14:09

1

ответ

Как скрести заголовки в о странице?

Я пытаюсь почистить заголовки о странице, но я так старался и потерпел неудачу из-за неправильного понимания, что делать? Я новичок Поэтому мне нужна помощь. импорт скрапа из .. элементов импорт ...

python-3.x scrapy

вопрос задан: 13 April 2019 10:25

1

ответ

Нацельтесь на предыдущий элемент из моего селектора [закрыто]

Я хочу очистить все < li > от нескольких < ul > на странице, использующей scrapy, у меня есть цикл for, который захватывает все теги внутри текущего < ul & gt ;, что я хотел бы сделать, это захватить текст ...

python xpath scrapy

вопрос задан: 3 April 2019 14:30

1

ответ

Почему я получаю код 400, когда POST "multipart / form-datain Scrapy. Python 3

Пытаться отправить форму безуспешно. Эта форма предназначена для перенаправления и возврата нового URL с PDF. Вот как получить доступ к рассматриваемой странице: Начните со страницы поиска. Нажмите на Тип документа ...

python-3.x scrapy multipartform-data

вопрос задан: 1 April 2019 06:48

1

ответ

Как автоматически увеличить DOWNLOAD_DELAY от scrapy при обнаружении кода 500 в статусе ответа

Я собираюсь написать сотни пауков для сканирования различных статических веб-страниц, поэтому я выбрал Scrapy, чтобы помочь мне закончить свою работу. Во время работы я нахожу большинство сайтов простыми и не ...

web-scraping delay scrapy web-crawler

вопрос задан: 31 March 2019 13:54

1

ответ

Как я могу получить правильный ответ от скрапа?

Я пытаюсь очистить некоторые результаты поиска из этого регистра компании, но когда я пытаюсь очистить название компании, мои результаты, кажется, не возвращаются должным образом, как будто пункт названия компании разделен на 2 ...

python web-scraping scrapy

вопрос задан: 24 March 2019 20:44

1

ответ

Как внедрить пул прокси в несколько сканеров scrapy?

Я должен реализовать пул прокси на сервере, который имеет несколько сканеров, которые используют scrapy. Как реализовать пул прокси, если у меня уже есть БД с несколькими обновленными прокси ...

python proxy scrapy web-crawler

вопрос задан: 19 March 2019 14:26

1

ответ

Как использовать Mandrill для отправки отчета по электронной почте в Scrapy Spidermon

В настоящее время расширение Scrapy Spidermon показывает только пример отправки электронной почты с помощью Amazon Simple Email Service. Возможно ли использовать Mandrill вместо этого? И как?

python web-scraping scrapy mandrill

вопрос задан: 19 March 2019 14:05

1

ответ

& Ldquo; moduleNotFoundError & Rdquo; когда устанавливает scrapy как приложение в Django

Когда я попытался запустить демо-версию scrapy cscl getCommodityInfo, произошла ошибка ниже. C: \ Users \ ch 宇 \ PycharmProjects \ GraduationProject \ spiders \ bin \ JDSpider> Поиск сканирования

python django scrapy

вопрос задан: 19 March 2019 08:24

1

ответ

Последовательное извлечение из нескольких start_urls, приводящее к ошибке при разборе

Во-первых, высочайшая благодарность за всю вашу работу, отвечающую на такие вопросы, как этот. Во-вторых, поскольку это, кажется, довольно распространенная проблема, я обнаружил связанные с (IMO) вопросы, такие как: Scrapy: Подождите ...

scrapy

вопрос задан: 18 March 2019 15:51

1

ответ

Используйте предметы в Scrapy

Я использую Scrapy и пытаюсь вывести файл JSON. Это прекрасно работает, когда я не использую предмет, но я хотел бы использовать их. Итак, мой код паука: импорт json, импорт scrapy из scrapy.loader, импорт ItemLoader из ...

python scrapy

вопрос задан: 18 March 2019 15:45

1

ответ

Как выполнить Scrapy Python в файле JavaScript?

У меня есть скрипт Python, который я запустил с помощью команды scrapy crawl mynamefile. Я хотел бы запустить команду scrapy crawl python cli из файла js в моем приложении js node, а затем отобразить его в ...

python node.js scrapy

вопрос задан: 7 March 2019 14:49

1

ответ

Решаем рекапчу с помощью скрапа

Я использую scrapy для сканирования некоторых веб-страниц. Но в какой-то момент Google reCAPTCHA блокирует путь. Google reCAPTCHA даже не загружается, если в браузере (в данном случае scrapy) нет работающего JavaScript ...

python selenium scrapy recaptcha

вопрос задан: 6 March 2019 09:05

1

ответ

Как пропустить повтор в скрапе питона

Я новичок в Scrapy. Я написал этот скрипт: класс MySpider (scrapy.Spider): #identity name = "mysite" #Request def start_requests (self): url = 'example.com/doc / ...

python python-3.x scrapy duplicates

вопрос задан: 5 March 2019 07:55