0
ответов

использование lxml и iterparse() для разбора большого (+- 1 Гб) XML-файла

Мне нужно проанализировать XML-файл размером 1 Гб со структурой, подобной приведенной ниже, и извлечь текст внутри тегов «Автор» и «Контент». ": MM/DD/YY
вопрос задан: 24 March 2012 22:25
0
ответов

Автоматическая проверка XSD

Согласно документации lxml «DTD извлекается автоматически на основе DOCTYPE проанализированного документа. Все, что вам нужно сделать, это использовать анализатор, в котором включена проверка DTD». http://lxml....
вопрос задан: 24 March 2012 14:12
0
ответов

Python sax в lxml для 80+ ГБ XML

Как бы вы прочитали файл XML с помощью sax и преобразовали его в элемент etree.iterparse lxml? Чтобы дать общее представление о проблеме, я создал инструмент приема XML, используя lxml для потока XML, который ...
вопрос задан: 21 March 2012 17:08
0
ответов

lxml в python, разбор по URL

Я новичок в lxml. Я хочу загрузить веб-страницу и получить интересующие данные, мой код: import urllib2 from lxml import etree url = "http://www.example.com/" html = urllib2.urlopen(url) ...
вопрос задан: 20 March 2012 09:35
0
ответов

символы Юникода lxml

Я новичок в lxml и python. Я пытаюсь разобрать html-документ. Когда я разбираю с помощью стандартного синтаксического анализатора xml, он записывает символы правильно, но я думаю, что он не может разобрать, потому что у меня проблемы...
вопрос задан: 5 March 2012 22:05
0
ответов

Подтвердить с помощью трех XML-схем как одной объединенной схемы в lxml?

Я создаю XML-документ, для которого были предоставлены разные XSD для разных частей (то есть определения некоторых элементов находятся в определенных файлах, определения для других в ...
вопрос задан: 2 March 2012 15:58
0
ответов

Нежелательное объявление пространства имен в lxml XPath

Я хочу выбрать первого ребенка определенного элемента (подэлемента), но пространство имен этого ребенка отличается от пространства имен родителя. Более того, этот ребенок может быть в любом пространстве имен. xml = '''
вопрос задан: 28 February 2012 21:33
0
ответов

XPath с lxml не работает

Я пытаюсь запросить с помощью XPath html документ, разобранный с помощью lxml. Документ представляет собой прямую html-загрузку страницы о пластике в Википедии. Затем я разбираю его с помощью lxml, отключая сущности ...
вопрос задан: 28 February 2012 00:57
0
ответов

Как выбрать родителя на основе дочернего элемента в lxml?

У меня есть этот код: 02
вопрос задан: 31 December 2011 04:37
0
ответов

python xlxml xpath expression to match substring in attribute

Допустим, у меня есть следующий XML <...
вопрос задан: 21 December 2011 16:14
0
ответов

Создание больших Листы Excel программно

Мы используем OpenPyxl для экспорта содержимого MySQL в Microsoft Excel в формате XSLX https: // bitbucket. org / ericgazoni / openpyxl / overview Однако объем данных, с которыми мы имеем дело, велик. Мы ...
вопрос задан: 11 December 2011 10:02
0
ответов

lxml имя тега с ":"

Я пытаюсь создать дерево xml из объекта JSON с помощью lxml.etree. Некоторые из имен тегов содержат двоеточие, что-то вроде :- 'settings:current' Я пытался использовать '{settings}current' в качестве...
вопрос задан: 8 December 2011 14:57
0
ответов

LXML - порядок тегов сортировки

У меня есть устаревший формат файла, который я конвертирую в XML для обработки. Структуру можно резюмировать следующим образом: X Y Z
вопрос задан: 5 December 2011 14:05
0
ответов

Xpath vs DOM vs BeautifulSoup vs lxml vs other Какой метод разбора веб-страницы самый быстрый?

Я знаю, как разобрать страницу с помощью Python. Мой вопрос в том, какой метод является самым быстрым из всех методов парсинга, насколько он быстрее других? Методы парсинга, которые я знаю, это Xpath, DOM, BeautifulSoup, ...
вопрос задан: 1 December 2011 15:50
0
ответов

сохраняя 'lxml.etree. _ElementTree '

Последние пару дней я потратил на то, чтобы разобраться с основами lxml, в частности, используя lxml.html для анализа веб-сайтов и создания ElementTree содержимого. В идеале я хочу сохранить .. .
вопрос задан: 25 November 2011 21:37
0
ответов

Поиск элемента html с классом с использованием lxml

Я искал везде и больше всего нашел doc.xpath ('// element [@ class = "classname"] '), но это не работает, как бы я ни старался. code Я использую import lxml.html def check (): data = ...
вопрос задан: 23 November 2011 22:59
0
ответов

python lxml - изменить атрибуты

из lxml import objectify, etree root = etree.fromstring ('' '
вопрос задан: 17 November 2011 17:46
0
ответов

Эффективный синтаксический анализ метатегов с помощью lxml?

Я анализирую HTML-страницы с помощью lxml. Страницы имеют следующие метатеги: Как я могу использовать ...
вопрос задан: 15 November 2011 19:02
0
ответов

Нужна помощь в установке lxml на os x 10.7

Я изо всех сил пытался сделать это из lxml import etree (кстати, import lxml отлично работает) Ошибка: ImportError: dlopen (/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7 / ...
вопрос задан: 1 November 2011 01:22
0
ответов

Хорошая печать в lxml не работает, когда я добавляю теги в проанализированное дерево

У меня есть XML-файл, с которым я использую etree из lxml для работы, но когда я добавляю к нему теги, красивая печать не работает похоже работает. >>> from lxml import etree >>> root = etree.parse ('...
вопрос задан: 26 October 2011 14:02
Что-то else
вопрос задан: 27 February 2012 20:46
0
ответов

easy_install lxml на Python 2.7 для Windows

Я использую Python 2.7 на Windows. Почему следующая ошибка возникает, когда я пытаюсь установить [lxml] [1] с помощью easy_install [setuptools] [2]? C: \ > easy_install lxml Поиск lxml Чтение http: // ...
вопрос задан: 26 February 2012 14:46
0
ответов

lxml - трудности с синтаксическим анализом RSS-канала stackexchange

Здравствуйте, у меня проблемы с синтаксическим анализом RSS-канала из stackexchange в Python. Когда я пытаюсь получить сводные узлы, возвращается пустой список. Я пытался решить эту проблему, но не могу разобраться…
вопрос задан: 23 February 2012 07:56
0
ответов

Google App Engine Python 2.7 + lxml = Unicode ParserError

Я пытаюсь использовать BeautifulSoup v4 для анализа документа. Я вызываю BeautifulSoup для note.content, который представляет собой строку, возвращаемую API Evernote: soup = BeautifulSoup (note.content) Я включил lxml ...
вопрос задан: 20 February 2012 19:57
0
ответов

Заменить текст тегом HTML в текстовом элементе LXML

У меня есть элемент lxml: >> lxml_element.text 'hello BREAK world' Мне нужно заменить слово BREAK на HTML тег разрыва—
. Я попытался заменить простой текст: ...
вопрос задан: 26 January 2012 18:23
0
ответов

Перемещение целого элемента с помощью lxml.etree

В lxml, возможно ли, учитывая элемент, переместить его в другое место в xml документе без необходимости читать все его дочерние элементы и создавать его заново? Моим лучшим примером было бы изменение ...
вопрос задан: 26 January 2012 00:13
0
ответов

Как мне поступить с XMLSyntaxError в Python lxml при синтаксическом анализе большого XML-файла?

Я пытаюсь проанализировать XML-файл размером более 2 ГБ с помощью библиотеки Python lxml. К сожалению, в XML-файле нет строки, указывающей кодировку символов, поэтому мне приходится устанавливать ее вручную. Хотя ...
вопрос задан: 17 January 2012 01:28
0
ответов

LXML и XSL функция document ()

Привет, я получил следующие файлы: merge.py: from lxml import etree xml_input = etree. XML (open ('a.xml', 'r'). Читать ()) xslt_root = etree.XML (open ('merge.xsl', 'r'). read ()) transform = etree.XSLT (...
вопрос задан: 12 January 2012 08:27
0
ответов

python, lxml и как получить код HTML из подмножества

Я использую эту функцию, чтобы получить этот раздел документа html. для el в doc.find_class ('plusShippingText'): print el Мне нужен html-код. Как я могу распечатать html-код для el? Спасибо
вопрос задан: 8 January 2012 09:08
0
ответов

XPath: выберите тег с пустым значением

Как я могу найти в XPath 1.0 все строки с пустым столбцом name = "POW"?