Я использование lxml для анализа HTML-файлов с заданными URL-адресами. Например: link = 'https://abc.com/def'
htmltree = lxml.html.parse (ссылка) Мой код работает хорошо в большинстве случаев, в том числе с http: //. ...
Я разбираю не - совместимый XML-файл (формат Sphinx xmlpipe2) и хотел бы, чтобы анализатор LXML игнорировал тот факт, что существуют неразрешенные префиксы пространства имен. Пример Sphinx XML: & ...
Я использую lxml (2.2.8) для создания и записи некоторого XML (в частности, XGMML). Приложение, которое будет читать его, по-видимому, довольно суетно и хочет видеть элемент верхнего уровня с: < graph label = "...
Я пытаюсь определить, когда устанавливается новое приложение, но только если оно запущено. Мне удалось обнаружить установку приложения, сделав BroadcastReceiver и активировав его внутри...
У меня есть HTML-документ, содержащий несколько глав текста, где тег H1 является сепаратором главы. Как я могу разделить такой документ в HTML-фрагменты, где каждый фрагмент начинается с тега H1 ...
У меня Windows Server 2008 R2 x64.
Он работает под управлением Python27 x86 + Django 1.3 + apache 2.2 x86 под wsgi. Он работает нормально без lxml. Мы используем soaplib, для которого требуется lxml. Я пробовал установить lxml в ...
I Я использую библиотеку lxml.html для синтаксического анализа HTML-документа. Я обнаружил определенный тег, который я называю content_tag, и хочу изменить его содержимое (т.е. текст между
У меня есть огромный xml-файл (1 Gig). Я хочу переместить некоторые элементы (записи) в другой файл с таким же заголовком и спецификациями. Скажем, исходный файл содержит эту запись с тегом <...
Как лучше всего справиться с отсутствием пространства имен на некоторых узлах в XML-документ с использованием lxml? Должен ли я сначала изменить все именованные узлы None, чтобы добавить имя "gmd", а затем изменить дерево ...
Ubuntu 11.04 имеет родной Python2.7 Я строю Python2.5 от источника до /usr/local/python2.5/bin, и попробуйте установить lxml для моего пользовательского python2 .5 Установить. Также я использую Virtualenv. Я переключаюсь на мой env с ...
Я мог бы прочитать содержимое XML-файла в строке и использовать строку операций для достижения этого, но я думаю, что есть более элегантный способ сделать это. Поскольку я не нашел подсказки в docus, я скинул ...
Я хочу выполнить iterfind () для элементов, у которых есть пространство имен, но нет префикса. Я хотел бы вызвать iterfind ([tagname]) или iterfind ([tagname], [namespace dict]) Я не хочу вводить тег как ...
Я новичок в python. Я пытаюсь разобрать огромный XML-файл в моем модуле Python с помощью lxml. Несмотря на очистку элементов в конце каждого цикла, моя память выскакивает и вылетает из приложения. Я ...
Я пытаюсь понять XPath, который был отправлен мне для использования с формами ACORD XML (общий формат в страховании). Они прислали мне XPath (усеченный для краткости): ./PersApplicationInfo/...
Я хочу использовать выражение xpath для получения значения атрибута. Я ожидал, что следующее сработает из lxml import etree для клиента в etree.parse ('file.xml'). Getroot (). Findall ('BOB'): ...
Мне просто нужны некоторые пакеты, которых нет на хост-машине (а я и linux ... мы. .. мы мало времени проводили вместе ...). Раньше я их устанавливал как: # из исходников
python setup.py ...
I've got an html file that has some text that looks like this (after running it through lxml.html parse, lxml.html clean, and this is the result of etree.tostring(table, pretty_print=True))
I'm using lxml in Python to parse some HTML and I want to extract all link to images. The way I do it right now is: //a[contains(@href,'.jpg') or contains(@href,'.jpeg') or ... (etc)] There are a ...
Я новичок в lxml и пытаюсь понять, как это сделать переписать ссылки с помощью iterlinks (). импорт lxml.html
html = lxml.html.document_fromstring (документ)
для элемента, атрибута, ссылки, позиции в html.iterlinks (): ...
Я получаю ОШИБКУ ИМПОРТА со следующим сообщением об ошибке в режиме отладки Django / usr / local / lib / python2. 6 / dist-packages / lxml-2.3-py2.6-win32.egg / lxml / objectify.pyd: недопустимый заголовок ELF Что это ...
Я пытаюсь использовать Lxml для анализа содержимого документа .docx. Я понимаю, что lxml заменяет префиксы пространства имен фактическим пространством имен, однако это действительно затрудняет проверку того, что ...
С помощью реализации API ElementTree в lxml легко полностью удалить данный элемент из XML-документа, но я не вижу простой способ последовательной замены элемента некоторым текстом. ...
Это настолько простой вопрос, что я не могу найти его в документации: - / В следующем: img = house_tree.xpath ('// img [@ id = "mainphoto"]') [0] Как мне получить HTML-код тега ? Я '...