разработать очень большую базу данных для поиска текста

Нам необходимо разработать систему, которая позволит пользователям выполнять поиск по различным ключевым словам в больших текстах, а также, в будущем, создавать некоторые базовые отчеты о частоте использования этого ключевого слова во всех статьях за период.

У нас будет:

  • около 200 000 статей добавляются каждый день
  • текст каждой статьи составляет около 2 КБ
  • статьи хранятся в течение 6 месяцев

Для этого мы пришли к следующему решению:

  • создать репозиторий SOLR для хранения статей
  • использовать базу данных MySQL для хранения дополнительной информации о статьях

Система будет искать в SOLR по ключевым словам, а затем будет искать результаты в MySQL для получения дополнительной информации.

Итак, будет ли это хороший подход?

Если большинство поисков будет производиться только по статьям, добавленным за последний месяц, было бы неплохо сохранить две базы данных, в одной из которых будут статьи, добавленные за последний месяц. для большинства поисковых запросов и еще один со всеми статьями?

Если у вас есть какие-либо советы / рекомендации о том, как это улучшить, мы будем очень признательны.

Заранее спасибо!

5
задан Stelian Matei 13 February 2012 в 11:07
поделиться