Lucene может возвратить несколько результатов поиска из единственного индексируемого файла?

Используя совет Orion Edwards я загрузил Sysinternal Process  Проводник , который в свою очередь позволил мне обнаруживать, что файл я испытывал затруднения при удалении, был на самом деле сохранен не эти Excel.Applications объект, я думал, а скорее то, что мой код C# отправляет почтовый код, создало объект Вложения, который оставил дескриптор этому файлу открытым.

, Как только я видел это, я довольно простой обратился к расположить методу объекта Вложения, и дескриптор был выпущен.

проводник Sysinternal позволил мне обнаруживать используемый в сочетании с Visual  Studio  отладчик 2005 года.

я настоятельно рекомендую этот инструмент!

8
задан Community 23 May 2017 в 10:33
поделиться

2 ответа

Я использую TR1 (регулярное выражение, unordered_map, unordered_set ...) и некоторые функции повышения, которые будут в следующем стандарте, например, (надеюсь) lexical_cast ... каждый день, а не только сегодня :)

Предположим, что пользователь выполняет поиск по запросу "foo", и есть 2 книги, содержащие этот термин. Первая книга (книга A) может содержать 2 главы, каждая из которых имеет много ссылок на «foo», однако этот термин почти не упоминается в остальной части книги, однако вторая книга (книга B) содержит много ссылок на «foo» , однако они разбросаны по всей книге. Если вы индексируете по книгам, то, вероятно, обнаружите, что книга B является первым попаданием, однако, индексируя по главам, вы, вероятно, обнаружите, что 2 главы из книги A - это первые 2 совпадения, за которыми следуют главы из книги B.

Наконец, очевидно, что пользователю будет представлено 1 обращение к каждому соответствующему документу, который есть в вашем индексе - если вы хотите предоставить своим пользователям список подходящих книг, то, очевидно, индексируйте по книгам,

1
ответ дан 6 December 2019 в 02:25
поделиться

Один из способов сделать это - создать несколько документов из одной книги. Документы могут представлять собой книги, главы или стихи. Поскольку текст не обязательно должен быть уникальным, я бы это сделал. Таким образом, первый стих в первой главе книги Бытия будет проиндексирован четыре раза: во всей Библии, в книге Бытия, в первой главе и как стих.

Тонкость здесь заключается в точном указании. цель поиска: Вы хотите просто отображать ключевые слова для поиска в контексте для пользователя? В этом случае рассмотрите возможность использования маркера Lucene . Если вам нужно, чтобы извлечение можно было использовать в дальнейшем (т. Е. Взять извлеченный указатель на главу или стих и произвести некоторую обработку в этом месте в тексте), я бы выбрал более детализированные документы, как я описывал ранее.

0
ответ дан 6 December 2019 в 02:25
поделиться
Другие вопросы по тегам:

Похожие вопросы: