Разбирать HTML и сохранять исходный контент

У меня много файлов HTML. Я хочу заменить некоторые элементы, сохранив все остальное содержимое без изменений. Например, я хотел бы выполнить это выражение jQuery (или его эквивалент):

$('.header.title').text('my new content')

в следующем документе HTML:

Foo

1

2

1

и имеют следующий результат:

my new content

1

2

1

Проблема в том, что все парсеры, которые я пробовал(Нокогири , BeautifulSoup , html5lib)сериализовать его примерно так:


  
  
    
my new content

1

2

1

Например. они добавляют:

  1. html, элементы заголовка и тела
  2. закрывающие теги p
  3. тело

Есть ли парсер, удовлетворяющий мои потребности? Он должен работать в Node.js, Ruby или Python.

14
задан NVI 10 August 2012 в 19:14
поделиться