0
ответов

Связывание >100 тыс. страниц без штрафных санкций за SEO

Я делаю сайт, на котором будут обзоры политик конфиденциальности сотен тысяч других сайтов в Интернете. Его исходное содержание основано на моем прохождении через CommonCrawl 5 миллиардов...
вопрос задан: 23 May 2017 11:48
0
ответов

Эквивалент wget в Python для загрузки веб-сайта и ресурсов

То же самое, о чем просили 2,5 года назад при загрузке веб-страницы и всех ее файлов ресурсов в Python, но не приводит к ответу и «см. соответствующую тему» ​​на самом деле не спрашивают об одном и том же. Я ...
вопрос задан: 23 May 2017 11:44
0
ответов

Как программно остановить загрузку страницы в firefox?

Я запускаю несколько тестов с WebDriver и Firefox. У меня проблема со следующей командой: WebDriver.get (www.google.com); С помощью этой команды WebDriver блокируется до загрузки ...
вопрос задан: 27 April 2017 18:29
0
ответов

Есть ли способ восстановить / восстановить nohup, чтобы увидеть вывод в консоли?

Я знаю, что шансы крайне малы, но есть ли способ чтобы увидеть, что недавно выводил процесс nohup-ed? У меня все еще открыт этот процесс, но я запустил его с перенаправлением всего вывода на /dev/...
вопрос задан: 3 September 2016 17:37
0
ответов

Попытка включить Scrapy в проект для запуска команды Crawl

Я новичок в Python и Scrapy, и я прохожу через руководство по Scrapy. Мне удалось создать свой проект, используя интерфейс DOS и набрав: scrapy startproject dmoz Далее в руководстве упоминается ...
вопрос задан: 20 July 2016 14:28
0
ответов

Scrapy - как определить уже очищенные URL

Я использую scrapy для ежедневного сканирования новостного веб-сайта. Как запретить scrapy очищать уже очищенные URL. Также есть четкая документация или примеры по SgmlLinkExtractor.
вопрос задан: 13 April 2016 13:57
0
ответов

Запись элементов в базу данных MySQL в Scrapy

Я новичок в Scrapy, у меня был класс кода паука Example_spider(BaseSpider): name = "example" allow_domains = ["www.example.com"] def start_requests( self): yield self....
вопрос задан: 31 March 2016 08:48
0
ответов

Как удалить запрос из URL-адреса?

Я использую scrapy для сканирования сайта, который, кажется, добавляет случайные значения в строку запроса в конце каждого URL-адреса. Это превращает сканирование в своего рода бесконечный цикл. Как сделать scrapy ...
вопрос задан: 18 March 2016 12:02
0
ответов

Где хранить данные веб-сканера?

У меня есть простой веб-сканер, который запускается с корневого каталога (заданный URL-адрес), загружает HTML-код корневой страницы, затем просматривает гиперссылки и выполняет сканирование их. В настоящее время я храню html-страницы в базе данных SQL. Я
вопрос задан: 20 December 2015 10:19
0
ответов

Отправка «User-agent» с использованием библиотеки Requests в Python

Я хочу отправить значение для «User-agent» при запросе веб-страницы с помощью Python Requests. Я не уверен, можно ли отправить это как часть заголовка, как в приведенном ниже коде: debug = {'verbose'...
вопрос задан: 26 August 2015 01:11
0
ответов

Как получить исходный код веб-страницы из Java [дубликат]

Я просто хочу получить исходный код любой веб-страницы из Java. Я нашел множество решений, но не смог найти ни одного кода, который работал бы для всех ссылок ниже: http: //www.cumhuriyet.com.tr? Hn = ...
вопрос задан: 25 August 2015 15:16
0
ответов

Какие библиотеки веб-сканера PHP доступны?

Мне нужны надежные, хорошо документированные сценарии поискового робота PHP. Возможно, PHP-порт проекта Java - http://wiki.apache.org/nutch/NutchTutorial. Я ищу как бесплатные, так и платные…
вопрос задан: 22 August 2015 13:15
0
ответов

Как я могу безопасно проверить, пуст узел или нет? (Искатель Symfony 2)

Когда я пытаюсь взять несуществующий контент со страницы, я получаю эту ошибку :Текущий список узлов пуст. 500 Internal Server Error -InvalidArgumentException Как я могу безопасно проверить, существует ли это...
вопрос задан: 11 May 2015 16:25
0
ответов

Как я могу получить целевой URL сокращенного URL, используя Ruby?

Как мне взять этот URL http://t.co/yjgxz5Y и получить целевой URL, который http://nickstraffictricks.com/4856_how-to-rank-1-in-google/
вопрос задан: 4 April 2015 18:43
0
ответов

Искать в исходном HTML-коде с помощью GOOGLE?

У меня есть несколько веб-сайтов, и я не могу вспомнить, где написал несколько строк кода. Поскольку мои страницы индексируются Google, я хотел бы знать, предлагает ли Google средство для поиска в исходном HTML ...
вопрос задан: 18 February 2015 17:50
0
ответов

Scrapy CrawlSpider: как получить доступ к элементу на разных уровнях анализа

Я просматриваю веб-сайт (только два уровня в глубину), и я хочу собрать информацию с сайтов на обоих уровнях. Проблема, с которой я столкнулся, заключается в том, что я хочу заполнить поля одного элемента информацией...
вопрос задан: 18 October 2014 15:03
0
ответов

Защита адресов электронной почты от спам-ботов / веб-сканеров

Как предотвратить сбор электронных писем с веб-страниц почтовыми пауками? Увеличивает ли mailto: связывание их вероятность их перехвата? Полезно ли URL-кодирование? Очевидно, лучший счетчик ...
вопрос задан: 12 July 2014 12:39
0
ответов

Почему сканирование сайта длится вечно?

открытый класс Parser { public static void main (String[] args ){ Parser p = new Parser (); p.matchString (); } parserObject courseObject = new parserObject (); Список массивов&...
вопрос задан: 2 June 2014 17:36
0
ответов

Следует ли мне создавать конвейер для сохранения файлов с помощью scrapy?

Мне нужно сохранить файл (.pdf), но я не знаю, как это сделать. Мне нужно сохранить .pdf-файлы и хранить их таким образом, чтобы они были организованы в каталогах так же, как они хранятся на сайте, который я просматриваю ...
вопрос задан: 24 May 2014 13:58
0
ответов

Какой лучший Open Source Web Crawler Tool, написанный на Java? [закрыто]

Какой лучший Open Source Web Crawler Tool, написанный на Java.
вопрос задан: 14 April 2014 22:29
0
ответов

Библиотеки веб-краулера Java

Я хотел сделать веб-сканер на основе Java для эксперимента. Я слышал, что создание веб-краулера на Java было подходящим способом, если вы делаете это впервые. Однако у меня есть два важных вопроса. Как будет...
вопрос задан: 14 April 2014 22:27
0
ответов

Как я могу использовать повторный поиск Google в моем приложении (веб или консоль)

Как мне сделать повторный поиск в стиле Google в моем приложении (веб или консоль) . Мне нужно повторно сканировать только те страницы, которые обновляются после определенной даты. Заголовок LastModified в System.Net ....
вопрос задан: 14 April 2014 21:17
0
ответов

Как мне запретить Bing нерегулярно заваливать мой сайт трафиком?

Bingbot сильно ударит по моему сайту в течение нескольких часов каждый день, а в остальное время будет очень светло. Я бы хотел либо сгладить его сканирование, либо уменьшить его ограничение, либо заблокировать ...
вопрос задан: 14 April 2014 21:09
0
ответов

getaddrinfo():временный сбой в разрешении имен

Я пишу программу веб-паука на C. Теперь мне дан список URL-адресов, и сначала я нужно получить IP-адрес сервера с помощью функции: getaddrinfo, и тут случилась нелепая вещь: в URL-адресе ...
вопрос задан: 14 April 2014 19:09
0
ответов

Как мне использовать модуль Python Scrapy для вывода списка всех URL-адресов с моего веб-сайта?

Я хочу использовать модуль Python Scrapy для очистки всех URL-адресов с моего веб-сайта и записать список в файл. Я просмотрел примеры, но не нашел простого примера для этого.
вопрос задан: 14 April 2014 19:09
0
ответов

Как сканировать/индексировать часто обновляемые веб-страницы?

Я пытаюсь создать очень маленькую нишевую поисковую систему, используя Nutch для обхода определенных сайтов. Некоторые из сайтов являются сайтами новостей/блогов. Если я просканирую, скажем, techcrunch.com, сохраним и проиндексирую их главную страницу...
вопрос задан: 14 April 2014 19:01
0
ответов

Как включить начальный URL-адрес в правило «разрешить» в SgmlLinkExtractor с помощью сканирования scrapy spider

Я просмотрел множество тем, но, похоже, не нашел ответа на свой конкретный вопрос. Я создал поискового робота для веб-сайта, и он отлично работает. Затем я сделал похожее сканирование ...
вопрос задан: 14 April 2014 19:01
0
ответов

Лучший сканер веб-графиков для скорости?

В течение последнего месяца я использовал Scrapy для проекта веб-сканирования, который я начал. Этот проект включает в себя раскрытие всего содержимого документа всех веб-страниц в одном доменном имени, которые ...
вопрос задан: 14 April 2014 18:52
0
ответов

Python Scrapy для автономных (локальных) данных

У меня есть набор данных 270 МБ (10000 файлов HTML) на моем компьютере. Могу ли я использовать Scrapy для локального сканирования этого набора данных? Как?
вопрос задан: 22 December 2013 19:43
0
ответов

Сканируемый AJAX с _escaped_fragment_ в htaccess

Здравствуйте, разработчики! Мы почти закончили разработку первой фазы нашего веб-приложения ajax. В нашем приложении мы используем хеш-фрагменты, например: http://ourdomain.com/#!list=last_ads&order=date I ...
вопрос задан: 13 December 2013 14:20