Идентификатор приложения Kafka Streams используется в разных местах, чтобы изолировать ресурсы, используемые приложением, от других.
Application Id используется как потребитель Kafka group.id
для координации. Вот почему вы не можете установить group.id
явно.
Из Kafka Streams Официальная документация , Application Id также используется в следующих местах:
- As the default Kafka consumer and producer client.id prefix
- As the name of the subdirectory in the state directory (cf. state.dir)
- As the prefix of internal Kafka topic names
То, что вы ищете, - это текстовый режим DOM-рендеринга, который выводит текст, очень похожий на Lynx или другие текстовые браузеры. ..Это гораздо сложнее сделать, чем вы ожидаете.
Я не знаю C #, но здесь есть довольно маленький и легкий для чтения скрипт на python html2txt: http://www.aaronsw.com/2002/html2text/
Я использовал Detagger в прошлом. Он отлично справляется с форматированием HTML как текста и представляет собой нечто большее, чем просто средство удаления тегов.
Самым простым, вероятно, будет удаление тегов в сочетании с заменой некоторых тегов на элементы текстового макета, такие как тире для элементов списка (li ) и разрывы строк для br и p. Не должно быть слишком сложно распространить это на таблицы.
Вы пробовали http://www.aaronsw.com/2002/html2text/ это Python, но с открытым исходным кодом.
В другом посте предлагается пакет гибкости HTML :
Это гибкая HTML-парсер, который создает DOM для чтения / записи и поддерживает обычный XPATH или XSLT (вы на самом деле не нужно понимать XPATH, ни XSLT использовать его, не волнуйтесь ...). это библиотека кода .NET, которая позволяет вам разбирать "вне Интернета" HTML-файлы. парсер очень терпимый с "реальным Мир "искаженный HTML. Объект Модель очень похожа на то, что предлагает System.Xml, но для документов HTML (или потоки).
Я слышал из надежного источника что, если вы выполняете разбор HTML в .Net, вам следует снова взглянуть на пакет гибкости HTML.
http://www.codeplex.com/htmlagilitypack
Некоторые примеры SO ..
Это еще одно решение для преобразования HTML в текст или RTF на C #:
SautinSoft.HtmlToRtf h = new SautinSoft.HtmlToRtf();
h.OutputFormat = HtmlToRtf.eOutputFormat.TextUnicode;
string text = h.ConvertString(htmlString);
Эта библиотека платная, это коммерческий продукт, и это мой собственный продукт.
Я недавно написал в блоге о решении , которое помогло мне использовать XSLT-файл Markdown для преобразования исходного кода HTML. Исходный код HTML, конечно, сначала должен быть действительным XML