Как извлечь текст из довольно нормального HTML?

Моим вопросом является вид подобных этот вопрос, но у меня есть больше ограничений:

  • Я знаю, что документ довольно нормален
  • они являются очень регулярными (они все произошли из того же источника
  • Я хочу приблизительно 99% видимого текста
  • приблизительно 99% того, что жизнеспособно вообще, являются текстом (они - более или менее RTF, преобразованный в HTML),
  • Я не забочусь о форматировании или даже концах абзаца.

Есть ли, кто-либо оборудует набор, чтобы сделать это, или действительно ли я более обеспечен просто вспыхивающий RegexBuddy и C#?

Я открыт для командной строки или инструментов пакетной обработки, а также библиотек C/C#/D.

12
задан Community 23 May 2017 в 10:30
поделиться