Поиск подстроки Django Haystack

Я недавно добавил возможности поиска к своему django-приводимому-в-действие сайту, чтобы позволить работодателям искать сотрудников, использующих ключевые слова. Когда пользователь первоначально загружает их резюме, я превращаю его в текст, избавляюсь от стоп-слов и затем добавляю текст к TextField для того пользователя. Я использовал Django-стог-сена с поиском Свиста назад механизм.

Три вещи -

1) Кроме дополнительных функций, которые я, вероятно, не использую, там какое-либо конкретное преимущество для переключения на Solr или Xapian?

2) В превращении резюме в текст я по существу индексирую PDF сам. Я знаю и Xapian и индексацию поддержки Solr pdf, однако, от взглядов его, Стог сена не делает. Какие-либо подсказки относительно того, как обойти это? Или я должен продолжать индексировать его сам? Если так, я должен делать больше, чем простое обеспечение текстового файла ключевых слов?

3) Свист только возвращает результат, если ключевое слово соответствует себе точно. Если у пользователя есть 'математика' как его ключевое слово, и я ищу 'математику', я хочу, чтобы тот пользователь появился. Я не мог окончательно сказать или Xapian, или Solr поддерживают это. Мысли?

Спасибо за любое предложение. Я собираюсь продолжить рыть в это сам в настоящее время.

7
задан dpetters 8 August 2010 в 00:22
поделиться