Я недавно добавил возможности поиска к своему django-приводимому-в-действие сайту, чтобы позволить работодателям искать сотрудников, использующих ключевые слова. Когда пользователь первоначально загружает их резюме, я превращаю его в текст, избавляюсь от стоп-слов и затем добавляю текст к TextField для того пользователя. Я использовал Django-стог-сена с поиском Свиста назад механизм.
Три вещи -
1) Кроме дополнительных функций, которые я, вероятно, не использую, там какое-либо конкретное преимущество для переключения на Solr или Xapian?
2) В превращении резюме в текст я по существу индексирую PDF сам. Я знаю и Xapian и индексацию поддержки Solr pdf, однако, от взглядов его, Стог сена не делает. Какие-либо подсказки относительно того, как обойти это? Или я должен продолжать индексировать его сам? Если так, я должен делать больше, чем простое обеспечение текстового файла ключевых слов?
3) Свист только возвращает результат, если ключевое слово соответствует себе точно. Если у пользователя есть 'математика' как его ключевое слово, и я ищу 'математику', я хочу, чтобы тот пользователь появился. Я не мог окончательно сказать или Xapian, или Solr поддерживают это. Мысли?
Спасибо за любое предложение. Я собираюсь продолжить рыть в это сам в настоящее время.