Разделение HTML в SOLR для устройства хранения данных, не индексируя

Question

Эй парни, мне удалось разделить HTML от содержания при индексации данных в SOLR.

Но действительно ли возможно разделить HTML от данных, просто храня данные?

Это - мое поле:

<field name="Content" type="textNoHTML" indexed="true" stored="true"/>

И, тип поля "textNoHTML" реализует solr. HTMLStripCharFilterFactory:

<charFilter class="solr.HTMLStripCharFilterFactory" />

Как я сказал, это хорошо работает для индексации, но действительно ли возможно применить подобный фильтр для хранения?

удачи!

5

indexing solr filtering

задан GoalBased 20 January 2011 в 22:42

1 ответ

Другие вопросы по тегам:

score 3 · Accepted Answer

Если вы используете DataImportHandler, вы можете использовать HTMLStripTransformer .

В противном случае вам придется реализовать эту клиентскую часть самостоятельно. Если ваш клиент .NET, вы можете использовать HtmlAgilityPack .