libxml2 из java

Этот вопрос в некоторой степени связан с Самый быстрый анализатор XML для небольших простых документов на Java но с некоторыми дополнительными особенностями.

Я работаю над приложением, которое должно анализировать множество (десятки миллионов) небольших (примерно 300 КБ) xml-документов. Текущая реализация использует xerces-j, и это занимает около 2,5 мс на XML-документ на машине с частотой 1,5 ГГц. Я бы хотел улучшить эту производительность. Я наткнулся на эту статью

http://www.xml.com/pub/a/2007/05/16/xml-parser-benchmarks-part-2.html

, в которой утверждается, что libxml2 может анализировать порядок на порядок быстрее, чем любые парсеры Java. Не уверен, верю ли я этому, но это привлекло мое внимание. Кто-нибудь пробовал использовать libxml2 из jvm? Если да, то быстрее ли это, чем синтаксический анализ java-dom (xerces)? Я думаю, мне все еще понадобится моя структура java-dom, но я предполагаю, что копирование из c-структурированного dom в java-dom не должно ' это займет много времени. почему синтаксический анализ sax быстрее, чем анализ dom? и как работает stax? и я открыт для возможности отказаться от dom.

Спасибо

7
задан Community 23 May 2017 в 12:00
поделиться