web-crawler - список вопросов по программированию web-crawler

0

ответов

Как указать URL для сканирования?

Я хочу использовать scrapy для сканирования веб-страниц. Есть ли способ передать начальный URL-адрес из самого терминала? В документации указано, что можно указать либо имя паука, либо URL,...

scrapy web-crawler

вопрос задан: 13 March 2012 09:11

0

ответов

Количество загрузок PyPi кажется нереальным

Я впервые разместил пакет на PyPi ~ 2 месяца назад, и с тех пор сделал несколько обновлений версий. На этой неделе я заметил запись количества загрузок и был удивлен, увидев, что это было ...

pypi python web-crawler

вопрос задан: 10 March 2012 16:23

0

ответов

Ruby, Mongodb, Anemone: поисковый робот с возможной утечкой памяти?

Недавно я начал изучать веб-сканеры и создал образец поискового робота с Ruby, Anemone и Mongodb для хранения. Я тестирую краулер на большом общедоступном веб-сайте с, возможно, миллиардами ...

ruby mongodb memory-leaks web-crawler anemone

вопрос задан: 24 February 2012 02:03

0

ответов

Вы индексировали результаты сканирования Nutch раньше с помощью elasticsearch?

Кому-нибудь удавалось писать пользовательские индексаторы для Nutch, чтобы индексировать результаты сканирования с elasticsearch? Или вы знаете, что уже существует?

lucene full-text-search web-crawler nutch elasticsearch

вопрос задан: 14 February 2012 13:14

0

ответов

Tor Web Crawler

Хорошо, вот что мне нужно. У меня есть веб-сканер на основе PHP. Доступно здесь: http://rz7ocnxxu7ka6ncv.onion/ Моя проблема в том, что моему пауку, который действительно сканирует страницы, нужно делать это на SOCKS ...

php proxy web-crawler tor transparentproxy

вопрос задан: 11 February 2012 15:59

0

ответов

Является ли Erlang правильным выбором для веб-краулера?

Я планирую написать веб-краулер для проекта НЛП, который будет читать структуру потоков форума каждый раз в определенный интервал и анализировать каждый поток с новым содержанием. С помощью регулярных выражений ...

erlang web-crawler

вопрос задан: 5 February 2012 19:17

0

ответов

Как разработать бота для сканирования?

Я работаю над небольшим проектом по анализу контента на некоторых сайтах Я считаю интересным; это настоящий проект «сделай сам», который я делаю для развлечения / просвещения, поэтому я хотел бы кодировать как можно больше ...

java scheme web-crawler racket

вопрос задан: 20 January 2012 05:24

0

ответов

динамические start_urls в scrapy

Я использую scrapy для сканирования нескольких страниц на сайте. Переменная start_urls используется для определения страниц для сканирования. Сначала я бы начал с 1-й страницы, определив таким образом start_urls = [1st page] в ...

web-crawler scrapy

вопрос задан: 10 January 2012 03:35

0

ответов

Scrapy отслеживает и очищает запрещенные ссылки

У меня есть CrawlSpider, настроенный для перехода по определенным ссылкам и очистки журнала новостей, где ссылки на каждую проблему соответствуют следующей схеме URL: http://example.com/ YYYY / DDDD / index.htm, где YYYY - это ...

python screen-scraping scrapy web-crawler

вопрос задан: 16 December 2011 18:19

0

ответов

Scrapy - одновременное ведение журнала в файл и стандартный вывод, с именами пауков

Я решил использовать модуль ведения журнала Python, потому что сообщения, генерируемые Twisted при ошибке std, слишком длинные, и я хочу, чтобы содержательные сообщения уровня INFO, такие как как сообщения, сгенерированные ...

python web-crawler scrapy

вопрос задан: 16 December 2011 11:07

0

ответов

Производитель / потребитель поисковый робот, использующий очередь с неизвестным размером

Мне нужно сканировать родительские веб-страницы и их дочерние веб-страницы, и я следовал концепции производителя / потребителя из http://www.albahari.com/threading/part4.aspx#%5FWait% 5Fand% 5FPulse. Также я использовал 5 потоков ...

c# multithreading queue web-crawler producer-consumer

вопрос задан: 12 December 2011 15:40

0

ответов

Получить прошлый лимит запросов при сканировании веб-сайта

Я работаю над поисковым роботом, который индексирует сайты, которые не нужно индексировать. Моя первая попытка: Я написал краулер на C #, который просматривает каждую страницу и загружает их. В результате получился мой IP ...

web-crawler distributed-computing

вопрос задан: 12 December 2011 15:15

0

ответов

Какой Open Source Crawler лучше?

Я сравниваю эти четыре Nutch / Heritrix / OpenPipeLine / Apache Tika. Какой из них лучше? Каковы достоинства и недостатки каждого из них? Я хотел бы иметь расширяемый краулер, который может просматривать список ...

web-crawler nutch

вопрос задан: 7 December 2011 13:28

0

ответов

Как определить поискового робота?

Как мне отфильтровать попадания от веб-сканеров и т. Д. Хиты, которые не являются человеческими .. Я использую maxmind.com, чтобы запрашивать город с IP-адреса .. Это не совсем дешево, если мне нужно платить за ВСЕ обращения, включая веб-сканеры, ...

php web-crawler

вопрос задан: 6 December 2011 18:26

0

ответов

Веб-сканер - Игнорировать файл Robots.txt?

На некоторых серверах есть файл robots.txt, который не позволяет поисковым роботам сканировать свои веб-сайты. Есть ли способ заставить веб-сканер игнорировать файл robots.txt? Я использую Mechanize для python ....

python web-crawler mechanize robots.txt

вопрос задан: 5 December 2011 14:05

0

ответов

Как я могу использовать разные конвейеры для разных пауков в одном проекте Scrapy

У меня есть проект scrapy, который содержит несколько пауков. Могу ли я каким-то образом можете определить, какие конвейеры использовать для какого паука? Не все конвейеры, которые я определил, применимы для каждого паука. ...

python scrapy web-crawler

вопрос задан: 4 December 2011 03:44

0

ответов

Как ползать по сайту/извлекать данные в базу данных с помощью python?

Я хочу создать веб-приложение, чтобы помочь другим студентам моего университета составлять их расписания. Для этого мне нужно получить основные расписания (одна огромная html-страница), а также ссылку на подробную ...

python web-crawler

вопрос задан: 1 December 2011 01:51

0

ответов

Sitecore Lucene: переиндексируйте дочерние (или родительские) элементы при обновлении элемента

Ситуация У меня следующая конфигурация Sitecore Lucene: New index, type = "Sitecore.Search.Index, Sitecore.Kernel" {{1} } Содержит два сканера (пользовательский сканер, который добавляет дополнительные "вычисляемые" поля) Каждый ...

database lucene indexing sitecore web-crawler

вопрос задан: 24 November 2011 09:17

0

ответов

Типичный фактор вежливости для поискового робота?

Каков типичный фактор вежливости для поискового робота? Помимо постоянного соблюдения robot.txt И "Disallow:", и нестандартная "Crawl-delay:" Но если сайт не указывает явную задержку сканирования ...

web-crawler website-admin

вопрос задан: 23 November 2011 00:56

0

ответов

Как вы работаете с PhantomJS

Я пытаюсь использовать PhantomJS и сканировать весь домен. Я хочу начать с корневого домена, например. www.domain.com - вытащите все ссылки (a.href), а затем получите очередь для получения каждой новой ссылки и ...

web-crawler phantomjs

вопрос задан: 16 November 2011 04:16

0

ответов

Как выбрать радиокнопку с помощью Mechanize в Ruby?

Я создаю сканер и использую Mechanize. Я хочу установить переключатель. Как я могу это сделать ? Например, есть две радиокнопки: «А» и «В». Веб-сайт автоматически ...

ruby screen-scraping mechanize web-crawler

вопрос задан: 11 November 2011 10:38

0

ответов

Сохранение всех файлов изображений с веб-сайта

Я создаю для себя небольшое приложение, в котором я запускаю сценарий Ruby и сохраняю все изображения из своего блога. Я не могу понять, как сохранить файлы изображений после того, как идентифицировал их. Любая помощь будет ...

ruby screen-scraping web-crawler nokogiri

вопрос задан: 30 October 2011 13:41

0

ответов

Воспроизвести паук Scrapy на сохраненных данных

Я начал использовать Scrapy для очистки нескольких веб-сайтов. Если я позже добавлю новое поле в свою модель или изменю свои функции синтаксического анализа, я хотел бы иметь возможность «воспроизвести» загруженные необработанные данные в автономном режи

python web-crawler scrapy

вопрос задан: 14 October 2011 10:34

0

ответов

Получите ссылки от Щема

Я использую ЩАТВА 1.3, чтобы ползать сайт. Я хочу получить список URL-адресов пополз, и URL-адреса, исходящие со страницы. Я получаю список URL-адресов, выполненных с помощью команды readdb. Bin / Readch Readdb Crawl / CRAWLDB -...

web-crawler nutch

вопрос задан: 15 September 2011 02:13

0

ответов

Примеры / руководства NCrawler

Кто-нибудь может направить меня к каким-либо примерам / руководствам, демонстрирующим использование NCrawler, я заглянул на страницу NCrawler Codeplex, но не нашел подробных примеров. Я пытаюсь использовать NCrawler, чтобы ...

.net monitoring web-crawler

вопрос задан: 15 August 2011 04:29

0

ответов

Веб-сканер Python с базой данных MySQL

Я хочу создать или найти веб-сканер с открытым исходным кодом (паук / бот), написанный на Python. Он должен находить ссылки и переходить по ним, собирать метатеги и метаописания, заголовки веб-страниц и URL-адрес ...

python mysql sql web-crawler web-scraping

вопрос задан: 10 August 2011 20:33

0

ответов

Очередь URL-адресов поискового робота или список хэшей?

Я переписываю часть приложения-картера сайта на Delphi 6, написанную мной ранее. Приложение скачет на одном сайте. Мне нужно управлять двумя аспектами этого: Очередь для URL-адресов для ...

delphi hash queue web-crawler

вопрос задан: 28 July 2011 13:00

0

ответов

wget для загрузки страниц профиля / друзей Facebook

Я пытаюсь загрузить страницу профиля пользователя facebook с помощью "wget", но продолжаю получать непрофильная страница "browser.php", которая не имеет ничего общего с этим конкретным пользователем. URL-адрес страницы профиля, поскольку я ...

facebook wget user-profile web-crawler

вопрос задан: 25 July 2011 20:07

0

ответов

Python: максимальная глубина рекурсии превышена при вызове объекта Python

Я создал сканер, который должен был работать примерно на 5 млн. Страниц (путем увеличения идентификатора URL), а затем анализирует страницы, содержащие информацию, которая мне нужна. после использования алгоритма, который работает на URL (200K) и ...

python algorithm recursion web-crawler depth

вопрос задан: 24 July 2011 20:14

0

ответов

Вопрос для интервью: приманки и поисковые роботы

Недавно я читал книгу в качестве подготовки к интервью и натолкнулся на следующий вопрос: что вы будете делать, когда ваш сканер наткнется на горшок с медом, который генерирует бесконечный подграф для вас ...

web-crawler honeypot

вопрос задан: 21 July 2011 18:02