0
ответов

Как указать URL для сканирования?

Я хочу использовать scrapy для сканирования веб-страниц. Есть ли способ передать начальный URL-адрес из самого терминала? В документации указано, что можно указать либо имя паука, либо URL,...
вопрос задан: 13 March 2012 09:11
0
ответов

Количество загрузок PyPi кажется нереальным

Я впервые разместил пакет на PyPi ~ 2 месяца назад, и с тех пор сделал несколько обновлений версий. На этой неделе я заметил запись количества загрузок и был удивлен, увидев, что это было ...
вопрос задан: 10 March 2012 16:23
0
ответов

Ruby, Mongodb, Anemone: поисковый робот с возможной утечкой памяти?

Недавно я начал изучать веб-сканеры и создал образец поискового робота с Ruby, Anemone и Mongodb для хранения. Я тестирую краулер на большом общедоступном веб-сайте с, возможно, миллиардами ...
вопрос задан: 24 February 2012 02:03
0
ответов

Вы индексировали результаты сканирования Nutch раньше с помощью elasticsearch?

Кому-нибудь удавалось писать пользовательские индексаторы для Nutch, чтобы индексировать результаты сканирования с elasticsearch? Или вы знаете, что уже существует?
вопрос задан: 14 February 2012 13:14
0
ответов

Tor Web Crawler

Хорошо, вот что мне нужно. У меня есть веб-сканер на основе PHP. Доступно здесь: http://rz7ocnxxu7ka6ncv.onion/ Моя проблема в том, что моему пауку, который действительно сканирует страницы, нужно делать это на SOCKS ...
вопрос задан: 11 February 2012 15:59
0
ответов

Является ли Erlang правильным выбором для веб-краулера?

Я планирую написать веб-краулер для проекта НЛП, который будет читать структуру потоков форума каждый раз в определенный интервал и анализировать каждый поток с новым содержанием. С помощью регулярных выражений ...
вопрос задан: 5 February 2012 19:17
0
ответов

Как разработать бота для сканирования?

Я работаю над небольшим проектом по анализу контента на некоторых сайтах Я считаю интересным; это настоящий проект «сделай сам», который я делаю для развлечения / просвещения, поэтому я хотел бы кодировать как можно больше ...
вопрос задан: 20 January 2012 05:24
0
ответов

динамические start_urls в scrapy

Я использую scrapy для сканирования нескольких страниц на сайте. Переменная start_urls используется для определения страниц для сканирования. Сначала я бы начал с 1-й страницы, определив таким образом start_urls = [1st page] в ...
вопрос задан: 10 January 2012 03:35
0
ответов

Scrapy отслеживает и очищает запрещенные ссылки

У меня есть CrawlSpider, настроенный для перехода по определенным ссылкам и очистки журнала новостей, где ссылки на каждую проблему соответствуют следующей схеме URL: http://example.com/ YYYY / DDDD / index.htm, где YYYY - это ...
вопрос задан: 16 December 2011 18:19
0
ответов

Scrapy - одновременное ведение журнала в файл и стандартный вывод, с именами пауков

Я решил использовать модуль ведения журнала Python, потому что сообщения, генерируемые Twisted при ошибке std, слишком длинные, и я хочу, чтобы содержательные сообщения уровня INFO, такие как как сообщения, сгенерированные ...
вопрос задан: 16 December 2011 11:07
0
ответов

Производитель / потребитель поисковый робот, использующий очередь с неизвестным размером

Мне нужно сканировать родительские веб-страницы и их дочерние веб-страницы, и я следовал концепции производителя / потребителя из http://www.albahari.com/threading/part4.aspx#%5FWait% 5Fand% 5FPulse. Также я использовал 5 потоков ...
вопрос задан: 12 December 2011 15:40
0
ответов

Получить прошлый лимит запросов при сканировании веб-сайта

Я работаю над поисковым роботом, который индексирует сайты, которые не нужно индексировать. Моя первая попытка: Я написал краулер на C #, который просматривает каждую страницу и загружает их. В результате получился мой IP ...
вопрос задан: 12 December 2011 15:15
0
ответов

Какой Open Source Crawler лучше?

Я сравниваю эти четыре Nutch / Heritrix / OpenPipeLine / Apache Tika. Какой из них лучше? Каковы достоинства и недостатки каждого из них? Я хотел бы иметь расширяемый краулер, который может просматривать список ...
вопрос задан: 7 December 2011 13:28
0
ответов

Как определить поискового робота?

Как мне отфильтровать попадания от веб-сканеров и т. Д. Хиты, которые не являются человеческими .. Я использую maxmind.com, чтобы запрашивать город с IP-адреса .. Это не совсем дешево, если мне нужно платить за ВСЕ обращения, включая веб-сканеры, ...
вопрос задан: 6 December 2011 18:26
0
ответов

Веб-сканер - Игнорировать файл Robots.txt?

На некоторых серверах есть файл robots.txt, который не позволяет поисковым роботам сканировать свои веб-сайты. Есть ли способ заставить веб-сканер игнорировать файл robots.txt? Я использую Mechanize для python ....
вопрос задан: 5 December 2011 14:05
0
ответов

Как я могу использовать разные конвейеры для разных пауков в одном проекте Scrapy

У меня есть проект scrapy, который содержит несколько пауков. Могу ли я каким-то образом можете определить, какие конвейеры использовать для какого паука? Не все конвейеры, которые я определил, применимы для каждого паука. ...
вопрос задан: 4 December 2011 03:44
0
ответов

Как ползать по сайту/извлекать данные в базу данных с помощью python?

Я хочу создать веб-приложение, чтобы помочь другим студентам моего университета составлять их расписания. Для этого мне нужно получить основные расписания (одна огромная html-страница), а также ссылку на подробную ...
вопрос задан: 1 December 2011 01:51
0
ответов

Sitecore Lucene: переиндексируйте дочерние (или родительские) элементы при обновлении элемента

Ситуация У меня следующая конфигурация Sitecore Lucene: New index, type = "Sitecore.Search.Index, Sitecore.Kernel" {{1} } Содержит два сканера (пользовательский сканер, который добавляет дополнительные "вычисляемые" поля) Каждый ...
вопрос задан: 24 November 2011 09:17
0
ответов

Типичный фактор вежливости для поискового робота?

Каков типичный фактор вежливости для поискового робота? Помимо постоянного соблюдения robot.txt И "Disallow:", и нестандартная "Crawl-delay:" Но если сайт не указывает явную задержку сканирования ...
вопрос задан: 23 November 2011 00:56
0
ответов

Как вы работаете с PhantomJS

Я пытаюсь использовать PhantomJS и сканировать весь домен. Я хочу начать с корневого домена, например. www.domain.com - вытащите все ссылки (a.href), а затем получите очередь для получения каждой новой ссылки и ...
вопрос задан: 16 November 2011 04:16
0
ответов

Как выбрать радиокнопку с помощью Mechanize в Ruby?

Я создаю сканер и использую Mechanize. Я хочу установить переключатель. Как я могу это сделать ? Например, есть две радиокнопки: «А» и «В». Веб-сайт автоматически ...
вопрос задан: 11 November 2011 10:38
0
ответов

Сохранение всех файлов изображений с веб-сайта

Я создаю для себя небольшое приложение, в котором я запускаю сценарий Ruby и сохраняю все изображения из своего блога. Я не могу понять, как сохранить файлы изображений после того, как идентифицировал их. Любая помощь будет ...
вопрос задан: 30 October 2011 13:41
0
ответов

Воспроизвести паук Scrapy на сохраненных данных

Я начал использовать Scrapy для очистки нескольких веб-сайтов. Если я позже добавлю новое поле в свою модель или изменю свои функции синтаксического анализа, я хотел бы иметь возможность «воспроизвести» загруженные необработанные данные в автономном режи
вопрос задан: 14 October 2011 10:34
0
ответов

Получите ссылки от Щема

Я использую ЩАТВА 1.3, чтобы ползать сайт. Я хочу получить список URL-адресов пополз, и URL-адреса, исходящие со страницы. Я получаю список URL-адресов, выполненных с помощью команды readdb. Bin / Readch Readdb Crawl / CRAWLDB -...
вопрос задан: 15 September 2011 02:13
0
ответов

Примеры / руководства NCrawler

Кто-нибудь может направить меня к каким-либо примерам / руководствам, демонстрирующим использование NCrawler, я заглянул на страницу NCrawler Codeplex, но не нашел подробных примеров. Я пытаюсь использовать NCrawler, чтобы ...
вопрос задан: 15 August 2011 04:29
0
ответов

Веб-сканер Python с базой данных MySQL

Я хочу создать или найти веб-сканер с открытым исходным кодом (паук / бот), написанный на Python. Он должен находить ссылки и переходить по ним, собирать метатеги и метаописания, заголовки веб-страниц и URL-адрес ...
вопрос задан: 10 August 2011 20:33
0
ответов

Очередь URL-адресов поискового робота или список хэшей?

Я переписываю часть приложения-картера сайта на Delphi 6, написанную мной ранее. Приложение скачет на одном сайте. Мне нужно управлять двумя аспектами этого: Очередь для URL-адресов для ...
вопрос задан: 28 July 2011 13:00
0
ответов

wget для загрузки страниц профиля / друзей Facebook

Я пытаюсь загрузить страницу профиля пользователя facebook с помощью "wget", но продолжаю получать непрофильная страница "browser.php", которая не имеет ничего общего с этим конкретным пользователем. URL-адрес страницы профиля, поскольку я ...
вопрос задан: 25 July 2011 20:07
0
ответов

Python: максимальная глубина рекурсии превышена при вызове объекта Python

Я создал сканер, который должен был работать примерно на 5 млн. Страниц (путем увеличения идентификатора URL), а затем анализирует страницы, содержащие информацию, которая мне нужна. после использования алгоритма, который работает на URL (200K) и ...
вопрос задан: 24 July 2011 20:14
0
ответов

Вопрос для интервью: приманки и поисковые роботы

Недавно я читал книгу в качестве подготовки к интервью и натолкнулся на следующий вопрос: что вы будете делать, когда ваш сканер наткнется на горшок с медом, который генерирует бесконечный подграф для вас ...
вопрос задан: 21 July 2011 18:02