Преобразование HTML в простой текст и сохранение структуры / форматирования с помощью ruby ​​

I ' Я хотел бы преобразовать HTML в обычный текст. Я не хочу просто удалять теги, я хотел бы разумно сохранить как можно больше форматирования. Вставка разрывов строк для тегов
, обнаружение абзацев и их форматирование как таковые и т. Д.

Ввод довольно простой, обычно хорошо отформатированный html (не целые документы, только куча содержимого, обычно без привязок или изображений).

Я мог бы собрать пару регулярных выражений, которые дадут мне 80% результата, но решил, что могут быть некоторые существующие решения с большим интеллектом.

5
задан John Bachir 20 May 2011 в 14:39
поделиться