У меня есть код Python для анализа XML-файла как , подробно описанный здесь . Я понимаю, что файлы XML печально известны для манипулирования системных ресурсов при управлении памятью. Мой Работа работает для небольших файлов XML (скажем, 200КБ и у меня есть файл 340 МБ).
Я начал исследовать реализацию Stax (Pull Pull), но я работаю в узком графике, и я ищу гораздо более простой подход для этой задачи.
Я понимаю создание меньших кусочков файлов, но как я могу извлечь правильные элементы, выводя основные метки / заголовка каждый раз?
, например, это схема:
....
....
....
....
....
....
....
....
....
....
....
Как создать новый XML Файлы с данными заголовка для каждой 1000 элементов книги? Для конкретного примера кода и набора данных, пожалуйста, обратитесь к другому вопросу здесь . Большое спасибо.
Все, что я хочу сделать, это избегать - Сразу загрузка набора данных. Можем ли мы разбирать файл XML в потоковой моде? Я думаю по Правильные линии?
P.S: Моя ситуация похожа на , спросил вопрос в 2009 году. Опубликуйте ответ здесь, как только я нахожу более простое решение для моей проблемы. Ваш отзыв ценится.