0
ответов

Парсер lxml съедает всю память

Я пишу какого-то паука на питоне и использую библиотеку lxml для разбора html и библиотеку gevent для асинхронности. Я обнаружил, что после некоторой работы парсер lxml начинает кушать память до 8ГБ (вся память сервера). ...
вопрос задан: 18 March 2011 14:06
0
ответов

Python lxml Проблема XPath

Я пытаюсь распечатать / сохранить HTML-код определенного элемента с веб-страницы. Я получил XPath запрошенного элемента из firebug. Все, что я хочу, - это сохранить этот элемент в файл. Кажется, мне не удается ...
вопрос задан: 18 March 2011 04:30
0
ответов

Py2exe lxml горе

У меня есть приложение wxpython, которое зависит от lxml и хорошо работает при запуске его через интерпретатор python. Тем не менее, при создании EXE с py2exe, я получил эту ошибку ImportError: Нет модуля ...
вопрос задан: 15 March 2011 09:13
0
ответов

What's the best way to handle  -like entities in XML documents with lxml?

Consider the following: from lxml import etree from StringIO import StringIO x = """\n â""" p = etree.XMLParser(...
вопрос задан: 2 March 2011 16:14
0
ответов

Теги с: в имени в lxml

Я пытаюсь использовать lxml.etree для синтаксического анализа экспортного документа Wordpress (это XML, что-то вроде RSS). Меня интересуют только опубликованные сообщения, поэтому для просмотра опубликованных сообщений я использую следующее: ...
вопрос задан: 27 February 2011 17:25
0
ответов

BeautifulSoup и lxml.html - что предпочесть ? [duplicate]

Я работаю над проектом, который будет включать синтаксический анализ HTML. После поиска я нашел два возможных варианта: BeautifulSoup и lxml.html. Есть ли причина предпочесть один другому? У меня ...
вопрос задан: 11 February 2011 08:49
0
ответов

Использование python для редактирования html, но lxml преобразует красивые объекты html в странную кодировку

Я пытаюсь использовать python (с pyquery и lxml) для изменения и очистки некоторого HTML. Например. html = "
<-->

Это & # 146; sa ...

вопрос задан: 2 February 2011 17:00
0
ответов

Python: Использование xpath локально / для определенного элемента

Я пытаюсь получить ссылки со страницы с помощью xpath. Проблема в том, что мне нужны только ссылки внутри таблицы, но если я применю выражение xpath ко всей странице, я буду захватывать ссылки, которых у меня нет ...
вопрос задан: 24 January 2011 18:49
0
ответов

Как использовать lxml для поиска текста элемента в документе XHTML

Я уже целую вечность бился об этом, я, должно быть, делал что-то глупое . Я пытаюсь получить все возможные языки, поддерживаемые Википедией, и вывести их в текстовый файл, пройдя ...
вопрос задан: 23 January 2011 01:31
0
ответов

Есть способ отключить urlencoding атрибутов привязки в lxml

Я использую lxml 2.2.8 и пытаюсь преобразовать некоторые существующие файлы html в шаблоны django. единственная проблема, с которой я столкнулся, заключается в том, что lxml urlencodes кодирует имя привязки и атрибуты href. например: ...
вопрос задан: 13 January 2011 20:40
0
ответов

В lxml, как удалить тег, но сохранить все содержимое?

Проблема в следующем: у меня есть фрагмент XML, например: < fragment> text1 inner1 text2 inner2 t ext3 Для результата я хочу ...
вопрос задан: 13 January 2011 14:46
0
ответов

Что вызывает ошибку «lxml.etree.XMLSyntaxError: документ пуст» при использовании lxml?

Я использую Mechanize / cookiejar / lxml для чтения страницы, а она работает для одних, но не для других. Ошибка, которую я получаю, указана в заголовке. Я не могу размещать здесь страницы, потому что они не SFW, но ...
вопрос задан: 10 January 2011 00:03
0
ответов

Исправление tostring () в функции tostring () Python lxml

lxml кажется совершенно некорректным при печати только частей документов. Свидетель: from lxml.html import fragment_fromstring, tostring frag = fragment_fromstring ('

Это & ...

вопрос задан: 5 January 2011 22:52
0
ответов

Генерация xml в python и lxml

У меня есть этот xml из sql, и я хочу сделать то же самое с python 2.7 и lxml <результаты>
вопрос задан: 17 December 2010 11:21
0
ответов

Получить текст второго элемента с помощью XPath?

google chrome Я хочу получить хром, и он уже работает так. q = item.findall ('.// ​​span [@ class = "python" ...
вопрос задан: 7 November 2010 14:47
0
ответов

Как вернуть необработанный XML из lxml?

Я использую следующий код для поиска div: parser = etree.HTMLParser () tree = etree.parse (StringIO (page), parser) div = tree.xpath ("// div [@ class = 'content']") [0] Моя единственная проблема в том, что после ...
вопрос задан: 24 October 2010 00:10
0
ответов

Python lxml и stdin

У меня есть файл xml, book.xml (http://msdn.microsoft.com/en-us/library/ms762271(VS.85).aspx) Я хотел бы добавить в каталог books.xml и получить все идентификаторы и жанры книг для идентификатора книги. Подобно cat books.xml | ...
вопрос задан: 17 September 2010 12:45
0
ответов

Python Lxml - добавить существующий xml с новыми данными

Я новичок в python / lxml После прочтения сайта lxml и погружения в python я не смог найти решение для своего N00B неприятности. У меня есть пример ниже XML: --------------- <...
вопрос задан: 6 September 2010 02:30
0
ответов

Проблемы с установкой lxml на Mac, он устанавливается, но модуль не найден

Код из lxml import etree выдает ошибку ImportError : Ни один модуль с именем lxml Запуск sudo easy_install lxml приводит к тому, что lxml 2.2.7 уже является активной версией в easy-install.pth ...
вопрос задан: 2 September 2010 08:50
0
ответов

Python - Проверка с несколькими схемами с помощью lxml

Я работаю со схемой, которая была создана третьим лицом, и я хотел бы проверить ее с lxml. Проблема состоит в том, что такая схема разделяется по различным xsd файлам, который ссылка самим. Для...
вопрос задан: 30 June 2010 08:39