2
ответа

Паук URL веб-сайта и возврата только

Я ищу путь к псевдопауку веб-сайт. Ключ - то, что я на самом деле не хочу содержание, а скорее простой список URIs. Я могу добраться обоснованно близко к этой идее с Wget с помощью-...
вопрос задан: 10 April 2016 02:06
2
ответа

Сделайте поисковый робот / пауком

Я изучаю создание поискового робота / паук, но мне нужен кто-то для указания на меня в правильном направлении для начала работы. В основном мой паук собирается искать звуковые файлы и индексировать их. Я справедлив...
вопрос задан: 29 December 2015 20:42
2
ответа

поисковый робот по сравнению со скребком

Может кто-то различать поисковый робот и скребок с точки зрения объема и функциональности.
вопрос задан: 18 October 2015 21:04
2
ответа

Как загрузить сразу несколько страниц? [Дубликат]

Я начал создавать веб-сканер PHP, он получает URL-адрес из очереди, затем посещает этот URL-адрес и захватывает ссылки, добавляя их в очередь. Мой вопрос в том, как я могу сделать это быстрее, есть ли способ ...
вопрос задан: 20 April 2015 08:49
2
ответа

Как найти все ссылки / страницы на веб-сайте

Действительно ли возможно найти все страницы и ссылки на КАКОЙ-ЛИБО данный веб-сайт? Я хотел бы ввести URL и произвести дерево каталогов всех ссылок от того сайта? Я посмотрел на HTTrack, но это загружает...
вопрос задан: 6 March 2015 00:18
2
ответа

Сканирование PDF-документа с использованием рубинов на рельсах [дубликат]

Недавно я начал работать с Ruby on Rails, и я познакомился с Nokogiri, который может заходить на сайты и получать данные. Наш веб-сайт университета объявляет курсы в таблице на защищенной паролем веб-странице. Кроме того, это ...
вопрос задан: 24 January 2015 15:16
2
ответа

Запрос Asp.net. Браузер. Поисковый робот - динамический список поискового робота?

Я учился Почему Запрос. Браузер. Поисковый робот всегда является Ложью в C# (http://www.digcode.com/default.aspx?page=ed51cde3-d979-4daf-afae-fa6192562ea9&article=bc3a7a4f-f53e-4f88-8e9c-c9337f6c05a0). Делает...
вопрос задан: 24 April 2014 00:18
2
ответа

Robots.txt: позвольте только главный SE

Существует ли способ настроить robots.txt так, чтобы сайт принял посещения ТОЛЬКО Google, Yahoo! и пауков MSN?
вопрос задан: 14 April 2014 19:02
2
ответа

Автоматизированный filedownload использование WebBrowser без URL

Я работал над WebCrawler, записанным в C# с помощью Системы. Windows. Формы. WebBrowser. Я пытаюсь загрузить файл от веб-сайта и сохранить его на локальной машине. Что еще более важно, я хотел бы это...
вопрос задан: 20 November 2011 19:06
2
ответа

Как заблокировать чтение / запись в таблицы MySQL, чтобы я мог выбирать и затем вставлять без других программ, читающих / записывающих в базу данных?

Я запускаю много экземпляров параллельный поисковый робот. Каждый искатель выбирает домен из таблицы, вставляет этот URL и время начала в таблицу журнала, а затем начинает сканирование домена. Другое ...
вопрос задан: 13 July 2011 03:17
2
ответа

Отслеживать, какой поток загружает URL

У меня есть приложение, которое загружает URL-адреса с использованием threadPool в разных потоках, но недавно Я прочитал статью (http://www.codeproject.com/KB/IP/Crawler.aspx), в которой говорится, что HttpWebRequest ....
вопрос задан: 17 August 2010 10:00
2
ответа

Имеет ли так или иначе создание json данные, читаемые пауком Google?

Действительно ли возможно сделать данные JSON читаемыми пауком Google? Скажите, например, что у меня есть канал JSON, который содержит данные для сайта электронной коммерции. Эти данные JSON используются для заполнения человека-...
вопрос задан: 2 August 2010 01:51
2
ответа

Использовать jQuery на переменной вместо этого на DOM?

В jQuery можно сделать: $ ("[href$ = '.img']") .each (функция (индекс) {предупреждение ($ (этот) .attr ('href'));} я хочу записать функцию jQuery, которая проверяет x-уровни с веб-сайта и собирает весь hrefs к...
вопрос задан: 10 May 2010 10:39
2
ответа

Как ограничить параллельные соединения, используемые ЗАВИХРЕНИЕМ

Я сделал простой поисковый робот с помощью PHP (и ЗАВИХРЕНИЕ). Это анализирует примерно 60 000 страниц HTML, и получите информацию о продукте (это - инструмент на интранет). Мое основное беспокойство является параллельным соединением. Я...
вопрос задан: 16 February 2010 16:57
2
ответа

Как исключить часть веб-страницы от индексации Google?

Существует способ исключить полную страницу (страницы) из индексации Google. Но существует ли способ конкретно исключить определенную часть (части) веб-страницы от Google, сканирования? Например, исключите боковую панель...
вопрос задан: 5 January 2010 08:10
2
ответа

Вопрос Scrapy SgmlLinkExtractor

Я пытаюсь сделать SgmlLinkExtractor для работы. Это - подпись: SgmlLinkExtractor (позволяют = (), отклоняют = (), allow_domains = (), deny_domains = (), restrict_xpaths (), теги = ('a', 'область'), attrs = ('href')...
вопрос задан: 27 November 2009 17:12
2
ответа

Разработка поискового робота и скребка для механизма вертикального поиска

Я должен разработать механизм вертикального поиска как часть веб-сайта. Данные для поисковой системы прибывают из веб-сайтов определенной категории. Я предполагаю для этого, у меня должен быть поисковый робот, который проверяет несколько (...
вопрос задан: 5 July 2009 17:14
2
ответа

Есть ли какие-либо стандартные блоки для поисковой системы, которая очистит другие сайты?

Я хочу, создают поисковый сервис для одной конкретной вещи. Данные в свободном доступе там через свободные секретные службы и хост других сайтов. Есть ли любые стандартные блоки, например, открыты-...
вопрос задан: 18 June 2009 17:42
2
ответа

HttpBrowserCapabilities. Свойство Crawler.NET

Как делает HttpBrowserCapabilities. Свойство Crawler (http://msdn.microsoft.com/en-us/library/aa332775 (По сравнению с 71) .aspx) работа? Я должен обнаружить пользовательский поисковый робот партнера, и это свойство возвращается...
вопрос задан: 21 October 2008 16:37
1
ответ

Как автоматически увеличить DOWNLOAD_DELAY от scrapy при обнаружении кода 500 в статусе ответа

Я собираюсь написать сотни пауков для сканирования различных статических веб-страниц, поэтому я выбрал Scrapy, чтобы помочь мне закончить свою работу. Во время работы я нахожу большинство сайтов простыми и не ...
вопрос задан: 31 March 2019 13:54
1
ответ

Stormcrawler, индекс состояния и повторное сканирование

Таким образом, у нас успешно работает stormcrawler, и в основной индекс в настоящее время добавлено чуть более 2 миллионов URL-адресов с наших различных веб-сайтов. Это работает хорошо, однако SC не кажется ...
вопрос задан: 21 March 2019 12:03
1
ответ

Как внедрить пул прокси в несколько сканеров scrapy?

Я должен реализовать пул прокси на сервере, который имеет несколько сканеров, которые используют scrapy. Как реализовать пул прокси, если у меня уже есть БД с несколькими обновленными прокси ...
вопрос задан: 19 March 2019 14:26
1
ответ

Как я могу получить аутентифицированные данные со школьной домашней страницы?

Я хочу сканировать свои аутентифицированные данные с домашней страницы университета, и нет никаких вызовов API. Поэтому я должен отправить данные POST, такие как идентификатор и пароль, на сервер, но я не могу войти, не нажав ...
вопрос задан: 3 March 2019 09:20
1
ответ

автоматический просмотр веб-сайта

Отсюда я получил помощь для сканирования сайта law.go.kr с приведенным ниже кодом. Я пытаюсь сканировать другие сайты, такие как http://lawbot.org, http://law.go.kr, https://casenote.kr. Но проблема в том, что у меня нет ...
вопрос задан: 26 February 2019 12:36
1
ответ

Проблема выбора нескольких ссылок на сайте - Python & amp; Селен

Я довольно плохо знаком с веб-соскоб. Я пытаюсь написать что-то на python с селеном, который будет автоматически входить на сайт и нажимать несколько вариантов из выпадающего меню. Когда все эти ...
вопрос задан: 23 February 2019 22:51
1
ответ

Разбор HTML-тегов br с помощью bs4

Я хочу проанализировать HTML-страницы с большим количеством параллельных < br /> теги, такие как < td > "а" < br > "b" < br > "c" < / td > Я хочу хранить эти данные отдельно как a = ["a"], b = ["b" ...
вопрос задан: 18 February 2019 08:31
1
ответ

Ползание Крейглишта с питоном

Я пытаюсь сканировать задания Craglist, используя python (я не использую scrapy). Может кто-нибудь решить эту проблему ниже? пожалуйста, не говорите о scrapy Это URL: https://chicago.craigslist.org/ на ...
вопрос задан: 18 January 2019 18:49
1
ответ

Команды wget и spider CRON на виртуальном хостинге

У меня старый скрипт php, который работает на виртуальном хостинге. Чтобы использовать все функциональные возможности, я должен использовать команду CRON: wget --spider -O - http://web.com/cron > / dev / null 4 > & amp; 8 Но ...
вопрос задан: 18 January 2019 11:10
1
ответ

xpath lxml не может получить все элементы внутри тега ul html

У меня была проблема с lxml xpath, мой приведенный ниже пример кода используется для получения всех данных из тега Li внутри Ul с помощью xpath: "// * [@ id =" s-results-list-atf "] / Li / @ данных-асин». Странно, я только ...
вопрос задан: 17 January 2019 13:49
1
ответ

Автоматическое удаление извлеченных записей при возникновении ошибки Fetch_Error

Работая над Storm Crawler 1.13, успешно запустил сканер на веб-сайте, и одна из страниц была удалена на веб-сайте, а в соответствии с crawler-conf при следующем повторном посещении индекс состояния обновлен как FETCH_ERROR ...
вопрос задан: 16 January 2019 21:22