Эй парни, мне удалось разделить HTML от содержания при индексации данных в SOLR.
Но действительно ли возможно разделить HTML от данных, просто храня данные?
Это - мое поле:
<field name="Content" type="textNoHTML" indexed="true" stored="true"/>
И, тип поля "textNoHTML" реализует solr. HTMLStripCharFilterFactory:
<charFilter class="solr.HTMLStripCharFilterFactory" />
Как я сказал, это хорошо работает для индексации, но действительно ли возможно применить подобный фильтр для хранения?
удачи!
Если вы используете DataImportHandler, вы можете использовать HTMLStripTransformer .
В противном случае вам придется реализовать эту клиентскую часть самостоятельно. Если ваш клиент .NET, вы можете использовать HtmlAgilityPack .