Разделение HTML в SOLR для устройства хранения данных, не индексируя

Эй парни, мне удалось разделить HTML от содержания при индексации данных в SOLR.

Но действительно ли возможно разделить HTML от данных, просто храня данные?

Это - мое поле:

<field name="Content" type="textNoHTML" indexed="true" stored="true"/>

И, тип поля "textNoHTML" реализует solr. HTMLStripCharFilterFactory:

<charFilter class="solr.HTMLStripCharFilterFactory" />

Как я сказал, это хорошо работает для индексации, но действительно ли возможно применить подобный фильтр для хранения?

удачи!

5
задан GoalBased 20 January 2011 в 22:42
поделиться

1 ответ

Если вы используете DataImportHandler, вы можете использовать HTMLStripTransformer .

В противном случае вам придется реализовать эту клиентскую часть самостоятельно. Если ваш клиент .NET, вы можете использовать HtmlAgilityPack .

3
ответ дан 15 December 2019 в 06:24
поделиться
Другие вопросы по тегам:

Похожие вопросы: