1
ответ

Scrapy не возвращает результаты для определенных тегов

Я только начал использовать Scrapy сегодня, но у меня есть опыт программирования на javascript, поэтому, пожалуйста, потерпите меня, я дам очень подробное объяснение: я использую GramReport для анализа некоторых ...
вопрос задан: 16 January 2019 06:03
1
ответ

Получить список URL-адресов из Google и распечатать в текстовый файл в python [duplicate]

Хорошо, поэтому у меня есть код, с которым я не могу работать. Я пытаюсь вытащить первые 10 URL-адресов из Google для любого результата поиска. Я не могу получить результаты для печати в файл, были ошибки, такие как: ...
вопрос задан: 7 May 2016 00:04
1
ответ

python: [Errno 10054] Существующее соединение было принудительно закрыто удаленным хостом

Я написание python для сканирования пространства Twitter с помощью Twitter-py. Я установил поисковый робот в спящий режим на некоторое время (2 секунды) между каждым запросом к api.twitter.com. Однако после нескольких запусков (...
вопрос задан: 14 April 2014 21:11
1
ответ

Python Web Crawlers и «получение» исходного кода html

Поэтому мой брат хотел, чтобы я написал веб-сканер на Python (самоучка), и я знаю C ++, Java и немного html. Я использую версию 2.7 и читаю библиотеку python, но у меня есть несколько проблем 1. ...
вопрос задан: 20 August 2010 18:09
1
ответ

Хорошие веб-сайты для тестирования webcrawler на

Я проверяю новый webcrawler, и я ищу некоторые хорошие веб-сайты, которые могли бы сбить его с толку (перенаправления, кадры, что-либо). Делает кто-либо знает о некоторых действительно сложных сайтах или, которые могли бы...
вопрос задан: 2 August 2010 18:03
1
ответ

Проверка и Очистка App Store iTunes

Я заметил, что предварительный просмотр iTunes позволяет Вам проверять и очищать страницы по протоколу http://. Однако многие ссылки пытаются быть открытыми в iTunes, а не браузере. Например, когда Вы...
вопрос задан: 23 June 2010 01:05
1
ответ

TypeError: принуждение к Unicode: должен представить в виде строки или буферизовать, Пользователь нашел

я должен проверить Last.fm для пользователей (университетское осуществление). Я плохо знаком с Python и получаю следующую ошибку: Traceback (новый вызов в последний раз): Файл "crawler.py", строка 23, в <модуле> для f в...
вопрос задан: 13 April 2010 12:39
1
ответ

Что я должен знать о проверке поисковой системы?

Я не имею в виду вещи SEO. Что я должен знать. Такой также, как и механизмы запускает JavaScript? Они используют cookie? Будут cookie нести через сессии проверки (скажите что cookie с сегодняшнего дня и зоб на следующей неделе или месяц)...
вопрос задан: 1 March 2010 18:54
1
ответ

Как создать поисковый робот на основе Scrapy для выполнения навсегда?

Я хочу создать поисковый робот на основе Scrapy для захвата изображений новостей от нескольких веб-сайтов портала новостей. Я хочу к этому поисковому роботу быть: Выполненный навсегда Средства это будет периодический пересматривать некоторые страницы порт
вопрос задан: 28 February 2010 04:07
1
ответ

php преобразовывают все ссылки на абсолютные URL

Я пишу поисковый робот веб-сайта в php, и у меня уже есть код, который может извлечь все ссылки из сайта. Проблема: сайты используют комбинацию абсолютных и относительных URL. Примеры (http замененный...
вопрос задан: 15 February 2010 20:00
1
ответ

Вращение Прокси для веб-очистки

У меня есть поисковый робот Python, и я хочу распределить запросы загрузки среди многих различных прокси-серверов, вероятно, рабочий сквид (хотя я открыт для альтернатив). Например, это могло работать в...
вопрос задан: 19 December 2009 20:46
1
ответ

Scrapy SgmlLinkExtractor игнорирует позволенные ссылки

Смотрите на этот пример паука в документации Scrapy. Объяснение: Этот паук запустил бы домашнюю страницу example.com сканирования, собрав ссылки категории и ссылки на элемент, анализируя...
вопрос задан: 28 November 2009 00:34
1
ответ

Scrapy BaseSpider:Как это работает?

Это - пример BaseSpider из учебного руководства Scrapy: от импорта scrapy.spider BaseSpider от scrapy.selector импортируют HtmlXPathSelector из импорта dmoz.items класс DmozItem DmozSpider (...
вопрос задан: 27 November 2009 00:15
1
ответ

URL заказывает вопрос в карте сайта XML?

Для поисковых систем и поисковых роботов веб-сайта, URL заказывает вопрос в карте сайта XML? В настоящее время, когда карта сайта сгенерирована, я заказываю URL веб-сайта последовательно с помощью уникального идентификатора, в...
вопрос задан: 13 August 2009 22:28
0
ответов

Как найти путь к файлу sitemap.xml на веб-сайте?

Как найти файл sitemap.xml веб-сайтов? например. При переходе к stackoverflow/sitemap.xml я получаю ошибку 404. В stackoverflow/robots.txt написано следующее :«это технически неверно, так как для...
вопрос задан: 16 October 2019 13:42
0
ответов

как извлечь ссылки и заголовки со страницы .html?

для моего веб-сайта, я хотел бы добавить новый функционал. Я хотел бы, чтобы пользователь мог загрузить свой файл резервной копии закладок (если возможно, из любого браузера), чтобы я мог загрузить его в свой профиль, а они не ...
вопрос задан: 22 July 2019 14:22
0
ответов

Как динамически генерировать start_urls при сканировании?

Я просматриваю сайт, который может содержать много start_urls, например: http: // www .a.com / list_1_2_3.htm Я хочу заполнить начальные_урлы, например [list_ \ d + _ \ d + _ \ d + \. htm], и извлекаю элементы из URL-адресов, например [node _ \ ...
вопрос задан: 24 June 2019 09:56
0
ответов

Паук Scrapy только возвращает последний пункт в списке

Я строю скребок для сканирования страницы и возврата нескольких элементов (тегов h3 & amp; p) из div По какой-то причине, скребок будет печатать все поля имени при вызове, но сохраняет информацию только для ...
вопрос задан: 24 March 2019 06:04
0
ответов

Scrapy - вывод не появляется

Доброе утро всем, у меня есть проблема при использовании Scrapy. Я хотел бы получить данные, содержащиеся в столбце «коммуна» таблицы, по этому адресу: https: //fr.wikipedia.org/wiki / ...
вопрос задан: 20 March 2019 10:37
0
ответов

Как написать столбец один раз в CSV-файл в Python3

Я собираю данные с новостного сайта и сохраняю их в переменную title, news и img, а затем записываю в файл csv, но получаю повторение имени столбца с каждой строкой очистки, я хочу печатать только ...
вопрос задан: 5 March 2019 18:20
0
ответов

Команда wget очень долго генерирует ссылки на карту сайта.

цель - вытащить все ссылки html с веб-сайта, чтобы создать поддерживаемую Google карту сайта XML мой soln- используя нижеприведенную команду для извлечения ссылок
вопрос задан: 5 March 2019 17:00
0
ответов

scrapy -splash, почему я не могу использовать element.click (), чтобы щелкнуть элемент ?? (element.click () не работает)

После запуска службы заставки я захожу на порт службы заставки на веб-странице (http://192.168.99.100:8050). Запустив свой lua_script, я хочу войти на веб-страницу QQ (популярное приложение для китайского чата) и удалить ...
вопрос задан: 17 January 2019 14:05
0
ответов

Является ли scrapy основой для выбора социальных сетей?

Я новичок в веб-соскабливании. Мой проект заключается в извлечении и анализе данных из социальных сетей с разных страниц бренда (помимо API). Я в настоящее время запутался, потому что нашел несколько фреймворков, и я не ...
вопрос задан: 13 July 2018 14:24
0
ответов

Почему facebook наводняет мой сайт?

Каждые полтора часа я получаю поток запросов от http://www.facebook.com/externalhit_uatext.php. Я знаю, что должны означать эти запросы, но такое поведение очень странное. На регулярной основе (...
вопрос задан: 21 May 2018 07:21
0
ответов

Nutch: Вызов на Java, а не в командной строке?

Я слишком толстый или действительно нет способа вызвать Apache Nutch с помощью некоторого кода Java программно? Где можно найти документацию (или руководство или учебник) о том, как это сделать? Google подвел меня. ...
вопрос задан: 24 January 2018 15:07
0
ответов

Nutch Нет агентов, перечисленных в 'http.agent.name'

Исключение в потоке" main "java.lang.IllegalArgumentException: Сборщик: Агенты не указаны в Свойство http.agent.name. в org.apache.nutch.fetcher.Fetcher.checkConfiguration (Fetcher.java:1166) ...
вопрос задан: 20 December 2017 12:44
0
ответов

Как запросить у Google повторное сканирование моего веб-сайта? [закрыто]

Кто-нибудь знает, как запросить у Google повторное сканирование веб-сайта? Если возможно, это не должно длиться месяцами. Мой сайт показывает старое название в результатах поиска Google. Как это показать с правильным ...
вопрос задан: 1 August 2017 17:54
0
ответов

Apache HTTPClient выдает java.net.SocketException: Сброс соединения для многих доменов

Я создаю (хорошо себя ведет) веб-паук и замечаю, что некоторые серверы заставляют Apache HttpClient выдавать мне SocketException, а именно: java.net.SocketException: Сброс соединения ...
вопрос задан: 23 May 2017 12:30
0
ответов

Как остановить все пауки и двигатель сразу после выполнения условия в конвейере?

У нас есть система, написанная с помощью scrapy для сканирования нескольких веб-сайтов. Есть несколько пауков и несколько каскадных конвейеров для всех элементов, пройденных всеми краулерами. Один из компонентов конвейера запрашивает ...
вопрос задан: 23 May 2017 12:17
0
ответов

Создание универсального паука Scrapy

Мой вопрос действительно заключается в том, как сделать то же самое, что и предыдущий вопрос, но в Scrapy 0.14. Использование одного паука Scrapy для нескольких веб-сайтов По сути, у меня есть графический интерфейс, который принимает такие параметры, как
вопрос задан: 23 May 2017 12:07