Как увеличить смещение позиции в индексе lucene, чтобы оно соответствовало тегам

?

Я использую Lucene 3.0.3. При подготовке к использованию SpanQuery и PhraseQuery я хотел бы отметить границы абзацев в своем индексе таким образом, чтобы эти запросы не соответствовали границам абзацев. Я понимаю, что мне нужно увеличить позицию на некоторое подходящее значение в PositionIncrementAttribute при обработке текста для обозначения границ абзаца. Предположим, что в исходном документе границы моих абзацев отмечены парами

...

.

Как настроить поток токенов для обнаружения тегов? Кроме того, я не хочу индексировать сами теги. В целях индексации я бы предпочел увеличить позицию следующего допустимого токена, а не выдавать токен, соответствующий тегу, поскольку я не хочу, чтобы он влиял на поиск.

7
задан Gene Golovchinsky 21 April 2011 в 20:46
поделиться