Синтаксический анализатор HTML для GAE

Обычно я использую lxml для своих потребностей парсинга HTML, но это не доступно на Google App Engine. Очевидной альтернативой является BeautifulSoup, но я нахожу, что это дросселирует слишком легко на уродливом HTML. В настоящее время я тестирую libxml2dom и был результатами улучшения.

Который чистый Python синтаксическому анализатору HTML нашли Вас, работает лучше всего? Мой приоритет является способностью обработать плохой HTML по скорости.

5
задан hoju 29 January 2010 в 11:29
поделиться

2 ответа

Больше не проблема - lxml поддерживается: https://developers.google.com/appengine/docs/python/tools/libraries27

5
ответ дан 13 December 2019 в 22:07
поделиться

Из Документация BeautifulSoup :

Версия 3.1.0 прекрасного супа значительно хуже на реальном мире HTML, чем версия 3.0.8

так, Это может помочь вам использовать эту более раннюю версию. Это именно то, что сам автор рекомендует.

Вы можете притворяться, что красивый суп версии 3.1.0 никогда не был выпущен. Версия 3.0.8 Все еще работает нормально на Python с 2,3 до 2,6.

5
ответ дан 13 December 2019 в 22:07
поделиться
Другие вопросы по тегам:

Похожие вопросы: