Кто-либо открывается, просто растяжимый поисковый робот существует?

Я ищу решение для поискового робота, какая банка является достаточно сформировавшейся и может быть просто расширена. Я интересуюсь следующими функциями... или возможностью расширить поисковый робот для встречи их:

  • частично только считать подачу нескольких сайтов
  • фрагментировать содержание этих сайтов
  • если бы сайт имеет архив, я хотел бы проверить и индексировать его также
  • поисковый робот должен быть способным для исследования части сети для меня, и это должно смочь решить, какие сайты соответствует данным критериям
  • должен смочь уведомить меня, если бы вещи, возможно соответствующие моему интересу, были найдены
  • поисковый робот не должен уничтожать серверы путем нападения на него слишком многими запросами, это должна быть умная проверка выполнения
  • поисковый робот должен быть устойчивым против странных сайтов и серверов

Те вещи выше могут быть сделаны один за другим без любого большого усилия, но я интересуюсь любым решением, которые предоставляют настраиваемый, растяжимый поисковый робот. Я слышал о Apache Nutch, но очень не уверенный в проекте до сих пор. У Вас есть опыт с ним? Можно ли рекомендовать альтернативы?

7
задан Silvio Donnini 26 November 2012 в 13:08
поделиться

4 ответа

Быстрый поиск на GitHub вызвал Anemone, паутинный фреймворк, который, кажется, соответствует Вашим требованиям - в частности, по расширяемости. Написано на Рубине.
Надеюсь, все пройдет хорошо!

2
ответ дан 7 December 2019 в 01:21
поделиться

Фил Хак проделал большую работу, объяснив два метода в этой публикации .

«Разница между ними заключается в том, что Html.RenderAction будет отображать результат непосредственно в Ответ (что более эффективно, если действие возвращает большое количество HTML), тогда как Html.Action возвращает последовательность с результатом».

-121--3119909-

Вы должны найти то, что соответствует вашим потребностям здесь .

2
ответ дан 7 December 2019 в 01:21
поделиться

Я сердечно рекомендую heritrix .

2
ответ дан 7 December 2019 в 01:21
поделиться

Я широко использовал Nutch, когда создавал индекс проектов с открытым исходным кодом для моего стартапа Krugle. Его сложно настроить, будучи довольно монолитным дизайном. Существует архитектура плагина, но взаимодействие между плагинами и системой хрупкое и хрупкое.

В результате этого опыта, и нуждаясь в чем-то более гибком, я запустил проект Bixo - инструментарий для веб-разработки. http://openbixo.org.

Подходит ли он вам, зависит от взвешивания таких факторов:

  1. Сколько гибкости вам нужно (+)
  2. Насколько зрелым должно быть (-)
  3. Нужна ли вам возможность масштабирования (+)
  4. Если вам удобно с Java/Hadoop (+)
4
ответ дан 7 December 2019 в 01:21
поделиться
Другие вопросы по тегам:

Похожие вопросы: