Я пишу какого-то паука на питоне и использую библиотеку lxml для разбора html и библиотеку gevent для асинхронности. Я обнаружил, что после некоторой работы парсер lxml начинает кушать память до 8ГБ (вся память сервера). ...
Я пытаюсь распечатать / сохранить HTML-код определенного элемента с веб-страницы.
Я получил XPath запрошенного элемента из firebug. Все, что я хочу, - это сохранить этот элемент в файл.
Кажется, мне не удается ...
У меня есть приложение wxpython, которое зависит от lxml и хорошо работает при запуске его через интерпретатор python. Тем не менее, при создании EXE с py2exe, я получил эту ошибку ImportError: Нет модуля ...
Я пытаюсь использовать lxml.etree для синтаксического анализа экспортного документа Wordpress (это XML, что-то вроде RSS). Меня интересуют только опубликованные сообщения, поэтому для просмотра опубликованных сообщений я использую следующее: ...
Я работаю над проектом, который будет включать синтаксический анализ HTML. После поиска я нашел два возможных варианта: BeautifulSoup и lxml.html. Есть ли причина предпочесть один другому? У меня ...
Я пытаюсь получить ссылки со страницы с помощью xpath. Проблема в том, что мне нужны только ссылки внутри таблицы, но если я применю выражение xpath ко всей странице, я буду захватывать ссылки, которых у меня нет ...
Я уже целую вечность бился об этом, я, должно быть, делал что-то глупое . Я пытаюсь получить все возможные языки, поддерживаемые Википедией, и вывести их в текстовый файл, пройдя ...
Я использую lxml 2.2.8 и пытаюсь преобразовать некоторые существующие файлы html в шаблоны django.
единственная проблема, с которой я столкнулся, заключается в том, что lxml urlencodes кодирует имя привязки и атрибуты href.
например: ...
Я использую Mechanize / cookiejar / lxml для чтения страницы, а она работает для одних, но не для других. Ошибка, которую я получаю, указана в заголовке. Я не могу размещать здесь страницы, потому что они не SFW, но ...
lxml кажется совершенно некорректным при печати только частей документов. Свидетель: from lxml.html import fragment_fromstring, tostring
frag = fragment_fromstring ('
Я использую следующий код для поиска div: parser = etree.HTMLParser ()
tree = etree.parse (StringIO (page), parser) div = tree.xpath ("// div [@ class = 'content']") [0] Моя единственная проблема в том, что после ...
У меня есть файл xml, book.xml (http://msdn.microsoft.com/en-us/library/ms762271(VS.85).aspx) Я хотел бы добавить в каталог books.xml и получить все идентификаторы и жанры книг для идентификатора книги. Подобно cat books.xml | ...
Я новичок в python / lxml После прочтения сайта lxml и погружения в python я не смог найти решение для своего N00B неприятности. У меня есть пример ниже XML: ---------------
<...
Код из lxml import etree выдает ошибку ImportError : Ни один модуль с именем lxml Запуск sudo easy_install lxml приводит к тому, что lxml 2.2.7 уже является активной версией в easy-install.pth ...
Я работаю со схемой, которая была создана третьим лицом, и я хотел бы проверить ее с lxml. Проблема состоит в том, что такая схема разделяется по различным xsd файлам, который ссылка самим. Для...