web-crawler - список вопросов по программированию web-crawler

0

ответов

Связывание >100 тыс. страниц без штрафных санкций за SEO

Я делаю сайт, на котором будут обзоры политик конфиденциальности сотен тысяч других сайтов в Интернете. Его исходное содержание основано на моем прохождении через CommonCrawl 5 миллиардов...

seo web web-crawler

вопрос задан: 23 May 2017 11:48

0

ответов

Эквивалент wget в Python для загрузки веб-сайта и ресурсов

То же самое, о чем просили 2,5 года назад при загрузке веб-страницы и всех ее файлов ресурсов в Python, но не приводит к ответу и «см. соответствующую тему» на самом деле не спрашивают об одном и том же. Я ...

python web-crawler wget

вопрос задан: 23 May 2017 11:44

0

ответов

Как программно остановить загрузку страницы в firefox?

Я запускаю несколько тестов с WebDriver и Firefox. У меня проблема со следующей командой: WebDriver.get (www.google.com); С помощью этой команды WebDriver блокируется до загрузки ...

firefox selenium web-crawler ghostdriver

вопрос задан: 27 April 2017 18:29

0

ответов

Есть ли способ восстановить / восстановить nohup, чтобы увидеть вывод в консоли?

Я знаю, что шансы крайне малы, но есть ли способ чтобы увидеть, что недавно выводил процесс nohup-ed? У меня все еще открыт этот процесс, но я запустил его с перенаправлением всего вывода на /dev/...

c++ web-crawler

вопрос задан: 3 September 2016 17:37

0

ответов

Попытка включить Scrapy в проект для запуска команды Crawl

Я новичок в Python и Scrapy, и я прохожу через руководство по Scrapy. Мне удалось создать свой проект, используя интерфейс DOS и набрав: scrapy startproject dmoz Далее в руководстве упоминается ...

python scrapy web-crawler

вопрос задан: 20 July 2016 14:28

0

ответов

Scrapy - как определить уже очищенные URL

Я использую scrapy для ежедневного сканирования новостного веб-сайта. Как запретить scrapy очищать уже очищенные URL. Также есть четкая документация или примеры по SgmlLinkExtractor.

python web-crawler scrapy

вопрос задан: 13 April 2016 13:57

0

ответов

Запись элементов в базу данных MySQL в Scrapy

Я новичок в Scrapy, у меня был класс кода паука Example_spider(BaseSpider): name = "example" allow_domains = ["www.example.com"] def start_requests( self): yield self....

mysql pipeline scrapy web-crawler

вопрос задан: 31 March 2016 08:48

0

ответов

Как удалить запрос из URL-адреса?

Я использую scrapy для сканирования сайта, который, кажется, добавляет случайные значения в строку запроса в конце каждого URL-адреса. Это превращает сканирование в своего рода бесконечный цикл. Как сделать scrapy ...

python url scrapy web-crawler

вопрос задан: 18 March 2016 12:02

0

ответов

Где хранить данные веб-сканера?

У меня есть простой веб-сканер, который запускается с корневого каталога (заданный URL-адрес), загружает HTML-код корневой страницы, затем просматривает гиперссылки и выполняет сканирование их. В настоящее время я храню html-страницы в базе данных SQL. Я

c# algorithm web-crawler

вопрос задан: 20 December 2015 10:19

0

ответов

Отправка «User-agent» с использованием библиотеки Requests в Python

Я хочу отправить значение для «User-agent» при запросе веб-страницы с помощью Python Requests. Я не уверен, можно ли отправить это как часть заголовка, как в приведенном ниже коде: debug = {'verbose'...

python python-requests web-crawler

вопрос задан: 26 August 2015 01:11

0

ответов

Как получить исходный код веб-страницы из Java [дубликат]

Я просто хочу получить исходный код любой веб-страницы из Java. Я нашел множество решений, но не смог найти ни одного кода, который работал бы для всех ссылок ниже: http: //www.cumhuriyet.com.tr? Hn = ...

java web web-crawler web-content

вопрос задан: 25 August 2015 15:16

0

ответов

Какие библиотеки веб-сканера PHP доступны?

Мне нужны надежные, хорошо документированные сценарии поискового робота PHP. Возможно, PHP-порт проекта Java - http://wiki.apache.org/nutch/NutchTutorial. Я ищу как бесплатные, так и платные…

php web-crawler

вопрос задан: 22 August 2015 13:15

0

ответов

Как я могу безопасно проверить, пуст узел или нет? (Искатель Symfony 2)

Когда я пытаюсь взять несуществующий контент со страницы, я получаю эту ошибку :Текущий список узлов пуст. 500 Internal Server Error -InvalidArgumentException Как я могу безопасно проверить, существует ли это...

symfony web-crawler

вопрос задан: 11 May 2015 16:25

0

ответов

Как я могу получить целевой URL сокращенного URL, используя Ruby?

Как мне взять этот URL http://t.co/yjgxz5Y и получить целевой URL, который http://nickstraffictricks.com/4856_how-to-rank-1-in-google/

http-redirect web-crawler ruby

вопрос задан: 4 April 2015 18:43

0

ответов

Искать в исходном HTML-коде с помощью GOOGLE?

У меня есть несколько веб-сайтов, и я не могу вспомнить, где написал несколько строк кода. Поскольку мои страницы индексируются Google, я хотел бы знать, предлагает ли Google средство для поиска в исходном HTML ...

search web-crawler search-engine keyword

вопрос задан: 18 February 2015 17:50

0

ответов

Scrapy CrawlSpider: как получить доступ к элементу на разных уровнях анализа

Я просматриваю веб-сайт (только два уровня в глубину), и я хочу собрать информацию с сайтов на обоих уровнях. Проблема, с которой я столкнулся, заключается в том, что я хочу заполнить поля одного элемента информацией...

multi-level python scrapy web-crawler web-scraping

вопрос задан: 18 October 2014 15:03

0

ответов

Защита адресов электронной почты от спам-ботов / веб-сканеров

Как предотвратить сбор электронных писем с веб-страниц почтовыми пауками? Увеличивает ли mailto: связывание их вероятность их перехвата? Полезно ли URL-кодирование? Очевидно, лучший счетчик ...

web-crawler spam spam-prevention email-spam

вопрос задан: 12 July 2014 12:39

0

ответов

Почему сканирование сайта длится вечно?

открытый класс Parser { public static void main (String[] args ){ Parser p = new Parser (); p.matchString (); } parserObject courseObject = new parserObject (); Список массивов&...

java web-crawler regex

вопрос задан: 2 June 2014 17:36

0

ответов

Следует ли мне создавать конвейер для сохранения файлов с помощью scrapy?

Мне нужно сохранить файл (.pdf), но я не знаю, как это сделать. Мне нужно сохранить .pdf-файлы и хранить их таким образом, чтобы они были организованы в каталогах так же, как они хранятся на сайте, который я просматриваю ...

python scrapy web-crawler pipeline

вопрос задан: 24 May 2014 13:58

0

ответов

Какой лучший Open Source Web Crawler Tool, написанный на Java? [закрыто]

Какой лучший Open Source Web Crawler Tool, написанный на Java.

java web-crawler

вопрос задан: 14 April 2014 22:29

0

ответов

Библиотеки веб-краулера Java

Я хотел сделать веб-сканер на основе Java для эксперимента. Я слышал, что создание веб-краулера на Java было подходящим способом, если вы делаете это впервые. Однако у меня есть два важных вопроса. Как будет...

java web-crawler

вопрос задан: 14 April 2014 22:27

0

ответов

Как я могу использовать повторный поиск Google в моем приложении (веб или консоль)

Как мне сделать повторный поиск в стиле Google в моем приложении (веб или консоль) . Мне нужно повторно сканировать только те страницы, которые обновляются после определенной даты. Заголовок LastModified в System.Net ....

c# asp.net web-crawler

вопрос задан: 14 April 2014 21:17

0

ответов

Как мне запретить Bing нерегулярно заваливать мой сайт трафиком?

Bingbot сильно ударит по моему сайту в течение нескольких часов каждый день, а в остальное время будет очень светло. Я бы хотел либо сгладить его сканирование, либо уменьшить его ограничение, либо заблокировать ...

web-crawler robots.txt bing bingbot

вопрос задан: 14 April 2014 21:09

0

ответов

getaddrinfo()：временный сбой в разрешении имен

Я пишу программу веб-паука на C. Теперь мне дан список URL-адресов, и сначала я нужно получить IP-адрес сервера с помощью функции: getaddrinfo, и тут случилась нелепая вещь: в URL-адресе ...

c web-crawler linux

вопрос задан: 14 April 2014 19:09

0

ответов

Как мне использовать модуль Python Scrapy для вывода списка всех URL-адресов с моего веб-сайта?

Я хочу использовать модуль Python Scrapy для очистки всех URL-адресов с моего веб-сайта и записать список в файл. Я просмотрел примеры, но не нашел простого примера для этого.

python web-crawler scrapy

вопрос задан: 14 April 2014 19:09

0

ответов

Как сканировать/индексировать часто обновляемые веб-страницы?

Я пытаюсь создать очень маленькую нишевую поисковую систему, используя Nutch для обхода определенных сайтов. Некоторые из сайтов являются сайтами новостей/блогов. Если я просканирую, скажем, techcrunch.com, сохраним и проиндексирую их главную страницу...

search-engine web-crawler

вопрос задан: 14 April 2014 19:01

0

ответов

Как включить начальный URL-адрес в правило «разрешить» в SgmlLinkExtractor с помощью сканирования scrapy spider

Я просмотрел множество тем, но, похоже, не нашел ответа на свой конкретный вопрос. Я создал поискового робота для веб-сайта, и он отлично работает. Затем я сделал похожее сканирование ...

scrapy web-crawler

вопрос задан: 14 April 2014 19:01

0

ответов

Лучший сканер веб-графиков для скорости?

В течение последнего месяца я использовал Scrapy для проекта веб-сканирования, который я начал. Этот проект включает в себя раскрытие всего содержимого документа всех веб-страниц в одном доменном имени, которые ...

scrapy web-crawler nutch

вопрос задан: 14 April 2014 18:52

0

ответов

Python Scrapy для автономных (локальных) данных

У меня есть набор данных 270 МБ (10000 файлов HTML) на моем компьютере. Могу ли я использовать Scrapy для локального сканирования этого набора данных? Как?

web-crawler scrapy python

вопрос задан: 22 December 2013 19:43

0

ответов

Сканируемый AJAX с _escaped_fragment_ в htaccess

Здравствуйте, разработчики! Мы почти закончили разработку первой фазы нашего веб-приложения ajax. В нашем приложении мы используем хеш-фрагменты, например: http://ourdomain.com/#!list=last_ads&order=date I ...

php ajax .htaccess url-rewriting web-crawler

вопрос задан: 13 December 2013 14:20