Как извлечь текст из довольно нормального HTML?

Question

Моим вопросом является вид подобных этот вопрос, но у меня есть больше ограничений:

Я знаю, что документ довольно нормален
они являются очень регулярными (они все произошли из того же источника
Я хочу приблизительно 99% видимого текста
приблизительно 99% того, что жизнеспособно вообще, являются текстом (они - более или менее RTF, преобразованный в HTML),
Я не забочусь о форматировании или даже концах абзаца.

Есть ли, кто-либо оборудует набор, чтобы сделать это, или действительно ли я более обеспечен просто вспыхивающий RegexBuddy и C#?

Я открыт для командной строки или инструментов пакетной обработки, а также библиотек C/C#/D.

12

c# html d text-extraction

задан Community 23 May 2017 в 10:30

0 ответов

Другие вопросы по тегам: