Рекомендация поисковой системы для 100 сайтов приблизительно 4 000 страниц

Я ищу поисковую систему, которая регулярно может (ежедневный выход) сканирование приблизительно 100 страниц для изменений и индексировать связанный сайт, если изменения начиная с последнего сканирования найдены. Это должно смочь обработать приблизительно 100 сайтов, каждое усреднение 4 000 страниц приблизительно 5k средний размер, каждый на различном сервере (но только тот централизовал поисковую систему). Каждый из этих сайтов будет иметь поисковую форму, которая отправлена этой поисковой системе. Результаты, которые возвращаются, должны быть характерны для сайта, который отправил их. Я создаю шаблоны для внешних сайтов, таким образом, я могу дать форме поиска скрытое поле, которое указывает, которые располагают форму, отправлен от.

Что Вы рекомендовали бы, чтобы я изучил?

Я хотел бы использовать основанную на Python систему для этого, по возможности.

Я в настоящее время использую что-то названное iSearch2. Это не кажется очень стабильным в этом масштабе, описание продукта указывает, что действительно не предназначается, чтобы сделать несколько сайтов, находится в PHP (который менее удобен для меня, чем Python), и имеет несколько других недостатков для моей определенной ситуации.

1
задан fwkb 26 April 2010 в 18:08
поделиться

3 ответа

Если вы ищете поисковую систему на чистом питоне, вы можете посмотреть whoosh . Проблема со свистом в том, что он медленный и не такой полнофункциональный. Было бы хорошо, если бы ваш сайт не получил большого трафика, но вам может понадобиться что-то более надежное для производства.

С учетом сказанного, мне нравится использовать Xapian с его привязками python . Это довольно быстро и легко настроить.

Вы также можете использовать solr , у которого есть python api . Solr написан на Java, но не позволяйте этому вводить вас в заблуждение, так как это лучший исполнитель из этой группы. Вам просто нужно запустить Java-сервер, чтобы это заработало.

Поскольку я использую Django, я могу интегрировать haystack в свои проекты, что упрощает переключение поисковых систем. Я буду использовать Whoosh для разработки, потому что его легко и быстро настроить (его можно установить в virtualenv), но развертывать с Xapian или Solr для производства в зависимости от моих потребностей.

1
ответ дан 3 September 2019 в 01:00
поделиться

Я рекомендую PyLucene . PyLucene - это расширение Python для доступа к Java Lucene, которое работает очень хорошо и быстро.

1
ответ дан 3 September 2019 в 01:00
поделиться

+1 для Lucene. Если PyLucene кажется сложным, вы можете в качестве альтернативы взглянуть на Solr (который является поисковым сервером на основе Lucene с интерфейсом HTTP. Высоко масштабируемый, очень быстрый и предлагает очень отличный набор функций, таких как многогранный просмотр, кеширование и т. Д. OOTB

Поскольку Solr основан на HTTP, вы можете подключиться к любому языку (включая Python), используя его RESTful API.

0
ответ дан 3 September 2019 в 01:00
поделиться
Другие вопросы по тегам:

Похожие вопросы: