web-crawler - список вопросов по программированию web-crawler

0

ответов

Исключение тестового субдомена из сканирования поисковыми системами (с репозиторием SVN)

У меня есть: domain.com test.domain.com Я хочу, чтобы domain.com сканировался и индексировался поисковыми системами, но не test.domain.com. Тестовый домен и основной домен используют один и тот же репозиторий SVN, поэтому ...

вопрос задан: 18 July 2011 23:05

0

ответов

Нажмите кнопку в Scrapy

Я использую Scrapy для сканирования веб-страницы. Некоторая информация, которая мне нужна, появляется только при нажатии на определенную кнопку (конечно, она также появляется в HTML-коде после нажатия). Я узнал, что Scrapy ...

scrapy web-scraping web-crawler python

вопрос задан: 13 July 2011 16:45

0

ответов

Следуя ссылкам, фреймворк веб-сканера Scrapy

После нескольких чтений документов Scrapy я все еще не улавливаю разницу между использованием CrawlSpider rules и реализации моего собственного механизма извлечения ссылок в методе обратного вызова. Я собираюсь ...

python web-crawler scrapy

вопрос задан: 6 July 2011 03:27

0

ответов

Поиск SharePoint не индексирует содержимое библиотек документов [закрыто]

У меня есть странная проблема, когда документы MS Word мои библиотеки documemt не индексируются. Когда я смотрю журнал сканирования, я вижу, что сканирование индексирует сами библиотеки, но не какие-либо ...

sharepoint search sharepoint-2010 web-crawler

вопрос задан: 4 July 2011 13:27

0

ответов

Запретить доступ, но разрешить роботам, например Google, к sitemap.xml

Есть ли метод, позволяющий разрешить только роботам таких как Google, Yahoo или другие роботы поисковых систем, в мою карту сайта, расположенную по адресу http://www.mywebsite.com/sitemap.xml. Возможно ли не ...

web-crawler robot

вопрос задан: 4 July 2011 09:40

0

ответов

Что значит сказать, что веб-сканер привязан к вводу-выводу, а не к процессору?

Я видел это в некоторых ответах на S / O, где говорится, что язык программирования не так важен для краулера, поэтому C ++ - это излишне, скажем, Python. Кто-нибудь, пожалуйста, объясните это ...

performance language-agnostic io web-crawler

вопрос задан: 21 May 2011 01:37

0

ответов

Определить контекст / значение веб-страницы (или абзаца текста)

Конечно, Google делает это годами! Однако вместо того, чтобы начинать с нуля, потратить 10 лет + и разбазарить большие суммы денег :) Мне было интересно, знает ли кто-нибудь о простой библиотеке PHP ...

php artificial-intelligence web-crawler

вопрос задан: 8 May 2011 18:23

0

ответов

Ruby on Rails, как определить, был ли запрос сделан роботом или пауком поисковой системы?

У меня есть приложения Rails, которые записывают IP-адрес из каждого запроса на конкретный URL, но в моей базе данных IP я нашел IP-адрес блока facebook, например 66.220.15. * И Google IP (я предлагаю, чтобы он исходил от бота. ). Есть ли ...

ruby-on-rails ruby-on-rails-3 search-engine web-crawler

вопрос задан: 4 May 2011 10:51

0

ответов

Программно разместить имя пользователя и пароль на странице входа в систему

Я хочу опубликовать имя пользователя и пароль на странице входа на удаленном веб-сайте с помощью asp. net и передайте его, чтобы получить доступ к страницам сайта, требующим входа в систему. Другими словами, предположим, что на веб-сайте есть страница ..

c# asp.net httpwebrequest web-crawler

вопрос задан: 3 May 2011 12:57

0

ответов

Как установить Robots.txt или Apache разрешает поисковым роботам только в определенные часы?

Поскольку трафик распределяется неравномерно в течение 24 часов, я хотел бы запретить поисковым роботам в часы просмотра и разрешить их в нерабочее время. Есть ли способ для этого? Изменить: спасибо за все ...

apache web-crawler robots.txt iptables

вопрос задан: 27 April 2011 06:51

0

ответов

как использовать двухуровневую настройку прокси в Python?

Я работаю над поисковым роботом [с использованием python]. Ситуация, например, заключается в том, что я нахожусь за сервером 1 и использую настройки прокси для подключения к Внешнему миру. Итак, в Python, используя обработчик прокси, я могу получить ...

python web-crawler

вопрос задан: 19 April 2011 16:24

0

ответов

Самый быстрый способ получить несколько веб-страниц на Java

Я пытаюсь написать быстрый парсер HTML, и на данный момент я просто сосредотачиваюсь на максимальном увеличении пропускной способности без синтаксического анализа. Я кэшировал IP-адреса URL-адресов: public class Data {private ...

java performance url web-crawler

вопрос задан: 16 April 2011 23:56

0

ответов

Есть ли алгоритм хеширования, допускающий незначительные отличия?

Я занимаюсь поиском определенных терминов на веб-страницах и нахожу их местоположение на странице, а затем кэширую их для позже использовать. Я хотел бы иметь возможность проверить страницу ...

algorithm caching web-crawler hash

вопрос задан: 13 April 2011 22:11

0

ответов

есть ли какая-нибудь структура веб-сканера java-скриптов [ closed]

Есть ли фреймворк для веб-сканеров JavaScript?

javascript web-crawler

вопрос задан: 5 April 2011 17:29

0

ответов

Ссылка на отдельные письма в gmail

Я хочу загрузить все электронные письма в учетную запись gmail и также хотите получить уникальный URL-адрес, который откроет точную почту в Gmail, конечно, с аутентификацией. Я пробовал использовать библиотеку imap javax.mail, но ...

gmail web-crawler gmail-imap javax.mail

вопрос задан: 22 March 2011 02:02

0

ответов

Scrapy: пропустить элемент и продолжить выполнение

Я использую RSS-паук. Я хочу продолжить выполнение паук игнорирует текущий узел, если в текущем нет совпадения item ... Пока что у меня есть это: if info.startswith ('...

python web-crawler scrapy

вопрос задан: 18 February 2011 10:23

0

ответов

Веб-сканер на Ruby [закрыто]

Каковы ваши рекомендации по написанию веб-сканера на Ruby? Есть ли библиотека лучше, чем Mechanize?

ruby web-crawler

вопрос задан: 13 February 2011 09:41

0

ответов

Какие хорошие веб-сканеры на основе Ruby? [closed]

Я собираюсь написать свой собственный, но мне интересно, есть ли какие-нибудь хорошие поисковые роботы, написанные на Ruby. Если не считать полноценного поискового робота, любые драгоценные камни, которые могут быть полезны в ...

ruby web-crawler

вопрос задан: 12 February 2011 23:41

0

ответов

Загрузить строку HTML в дерево DOM с помощью Javascript

Я сейчас работаю с фреймворк автоматизации, который вытягивает веб-страницу для анализа, которая затем представляется в виде строки для обработки. Механизм Rhino Javascript доступен для помощи ...

javascript dom web-crawler rhino web-scraping

вопрос задан: 4 February 2011 22:31

0

ответов

Как узнать, является ли HTTP-запрос BOT

Я ищу полный список User-Agent of BOTS (сканеры, пауки, твиттер-боты и т. д.). Вы знаете что-нибудь? Спасибо

seo user-agent web-crawler

вопрос задан: 19 January 2011 10:55

0

ответов

Мне нужна библиотека Powerful Web Scraper [закрыто]

Мне нужно мощная библиотека веб-парсеров для извлечения содержимого из Интернета. Это может быть платное или бесплатное, и то, и другое мне подойдет. Пожалуйста, предложите мне библиотеку или лучший способ для добычи данных и хранения в моем ...

c# .net web-crawler web-scraping

вопрос задан: 7 December 2010 14:07

0

ответов

Любая хорошая платформа веб-сканирования с открытым исходным кодом на C #

Я создаю механизм сравнения покупок, и мне нужно создать механизм сканирования для выполнения ежедневного процесса сбора данных. Я решил построить краулер на C #. У меня много неудачного опыта ...

c# screen-scraping web-crawler web-scraping

вопрос задан: 5 December 2010 22:19

0

ответов

Как кодируется Mozenda Screen Scraper?

Я хочу знать, как кодируется Mozenda Screen Scraper? http: //www.mozenda. com / screen-scraper Я показываю браузер, в котором пользователь может выбирать поля, которые он хочет удалить, и создает сценарий сканирования ...

screen-scraping web-crawler web-scraping

вопрос задан: 5 December 2010 18:57

0

ответов

Советы Nutch API

Я работаю над проектом, в котором мне нужен зрелый поисковый робот. некоторая работа, и я оцениваю Nutch для этой цели. Мои текущие потребности относительно просты: мне нужен краулер, способный ...

java web-crawler nutch

вопрос задан: 2 December 2010 21:37

0

ответов

Как выполнить HTTP-запрос / вызов с полезными данными JSON из командной строки?

Какой самый простой способ выполнить вызов JSON из командной строки? У меня есть веб-сайт, на котором выполняется вызов JSON для получения дополнительных данных. Данные запроса, показанные в Google Chrome, выглядят так: {"...

linux json command-line web-crawler

вопрос задан: 1 December 2010 09:00

0

ответов

An alternative web crawler to Nutch [closed]

I'm trying to build a specialised search engine web site that indexes a limited number of web sites. The solution I came up with is: using Nutch as the web crawler, используя Solr в качестве поисковой системы, ...

search-engine web-crawler nutch

вопрос задан: 24 November 2010 17:24

0

ответов

Alternative to HtmlUnit

I have been researching about the headless browsers available till to date and found HtmlUnit being used pretty extensively. Do we have any alternative to HtmlUnit with possible advantage compared to ...

screen-scraping web-crawler htmlunit headless-browser

вопрос задан: 23 November 2010 07:21

0

ответов

Не удается заставить работать конвейер Scrapy

У меня есть паук, который я написал, используя фреймворк Scrapy. У меня возникли проблемы с запуском конвейеров. У меня есть следующий код в моем pipelines.py: class FilePipeline(object): ...

python web-crawler pipeline scrapy scraper

вопрос задан: 4 November 2010 19:40

0

ответов

Могу ли я использовать WGET для создания карты сайта по его URL?

Мне нужен скрипт, который может сканировать веб-сайт и возвращать список всех просканированных страниц в текстовом или подобном формате; который я отправлю поисковым системам как карту сайта. Могу ли я использовать WGET для создания ...

php wget web-crawler bots

вопрос задан: 16 October 2010 01:47

0

ответов

После выполнения HttpWebRequests в течение некоторого времени результат начинает истекать.

У меня есть приложение, которое ищет информацию на веб-сайтах. Похоже, что после 20-45 минут создания HttpWebRequests многие из них возвращают таймауты. Одна вещь, которую мы делаем, - это прикрепляем BindIPDelegate ...

c# .net networking windows-server-2008 web-crawler

вопрос задан: 11 October 2010 17:13