Моим вопросом является вид подобных этот вопрос, но у меня есть больше ограничений:
- Я знаю, что документ довольно нормален
- они являются очень регулярными (они все произошли из того же источника
- Я хочу приблизительно 99% видимого текста
- приблизительно 99% того, что жизнеспособно вообще, являются текстом (они - более или менее RTF, преобразованный в HTML),
- Я не забочусь о форматировании или даже концах абзаца.
Есть ли, кто-либо оборудует набор, чтобы сделать это, или действительно ли я более обеспечен просто вспыхивающий RegexBuddy и C#?
Я открыт для командной строки или инструментов пакетной обработки, а также библиотек C/C#/D.
задан Community 23 May 2017 в 10:30
поделиться