26
ответов

Как удалить номера из имен? [Дубликат]

Я начал очищать веб-страницы, однако мой текст имеет число 0.01, прикрепленное к нему. Например, мне хотелось бы, чтобы имя «Doe, John0.01» выглядело как «Doe, John». Вот код до сих пор ... от urllib ....
вопрос задан: 25 October 2017 10:59
14
ответов

Как итерация python lxml обрабатывает текст тега? [Дубликат]

У меня есть следующий код: из lxml import etree из io import StringIO html = "" "" Привет, мир! "& Lt; span class =" black "& gt; & lt; div class =" c1 "& gt; деление & lt; p & gt;" Привет, это я. (c) ...
вопрос задан: 13 January 2016 21:17
7
ответов

Как Вы устанавливаете lxml на Leopard OS X, не используя MacPorts или Fink?

Я попробовал это и работал в к проблемам набор времен в прошлом. У кого-либо есть рецепт для установки lxml на OS X без MacPorts или Fink, который определенно работает? Предпочтительно с полными 1-...
вопрос задан: 14 December 2012 23:26
5
ответов

Python - lxml - получить текущий адрес URL [дубликат]

Я пытаюсь создать программу для сбора информации о тенденциях цен от https://www.cardmarket.com/ru/Magic с помощью Python, lxml и запроса. Мне удалось собрать все необходимые данные, кроме одного ...
вопрос задан: 9 December 2013 18:33
5
ответов

Как я могу проанализировать HTML с html5lib и запросить проанализированный HTML с XPath?

Я пытаюсь использовать html5lib для парсинга страницы HTML в к чему-то, что я могу запросить с xpath. html5lib имеет близко к нулевой документации, и я провел слишком много времени, пытаясь понять эту проблему...
вопрос задан: 6 December 2010 11:33
4
ответа

Парсинг HTML в Python - lxml или BeautifulSoup? Какой из них лучше для какой виды целей?

Из того, что я могу разобрать, две основных библиотеки парсинга HTML в Python являются lxml и BeautifulSoup. Я выбрал BeautifulSoup для проекта, я продолжаю работать, но я выбрал его ни по какой конкретной причине...
вопрос задан: 17 December 2009 04:08
4
ответа

Проблема с помощью py2app с lxml пакетом

Я пытаюсь использовать 'py2app' для генерации автономного приложения из некоторых сценариев Python. Python использует 'lxml' пакет, и я нашел, что должен указать это явно в setup.py...
вопрос задан: 20 May 2009 14:55
3
ответа

удалить все атрибуты данных с помощью etree из всех элементов

Поэтому я пытаюсь очистить HTML. У меня есть следующая функция: def clean_html (self, html): replace_html = html.decode ('utf-8'). Replace ('<', '<') tree = etree.HTML (...
вопрос задан: 11 March 2019 12:21
3
ответа

Установка lxml, libxml2, libxslt в Windows 8.1

После дополнительных исследований я нашел решение для установки lxml с pip и wheel. Дополнительные комментарии по подходу приветствуются. Я нахожу существующую документацию по Python для дистрибутивов Linux ...
вопрос задан: 14 August 2016 00:17
3
ответа

Почему оба утверждения оцениваются в False? [Дубликат]

Я использую запросы и lxml с python 2.7, чтобы найти текст на веб-странице. spam = html.find ('.// ​​p [@ class = "spam"]') eggs = html.find ('.// ​​p [@ class = "eggs"]'), если спам: print ('spam and ветчина '), если яйца: ...
вопрос задан: 9 July 2014 19:58
3
ответа

Модуль python lxml: синтаксический разбор XML-файла емкостью 350 МБ использует 6 ГБ RAM, почему? [Дубликат]

Я новичок в работе со сравнительно большими xml-файлами, и теперь я сталкиваюсь со следующей проблемой: я использую пакет lxml для анализа 348,9 МБ xml-файла и контролировал использование ОЗУ с помощью ...
вопрос задан: 25 March 2012 00:25
3
ответа

удалите все между 2 тегами, которые охватывают ответвления дерева XML

Я пытаюсь удалить все в XML-документе между 2 тегами, с помощью Python и lxml., которым проблема состоит в том, что теги могут быть в различных ответвлениях дерева (но всегда на той же глубине)...
вопрос задан: 4 August 2010 01:20
3
ответа

Сеть Python, очищающая связавший HTML-тэги с атрибутами

Я пытаюсь сделать веб-скребок, который проанализирует веб-страницу публикаций и извлечет авторов. Скелетная структура веб-страницы следующая: <HTML> <тело> <идентификатор отделения = "...
вопрос задан: 8 September 2009 03:25
2
ответа

Браузер удаляет символы новой строки в файле xml [duplicate]

Я закодировал сценарий python 3, который выводит отформатированный XML-вывод RSS. Но когда я открываю выходной XML-файл в Chrome, я вижу, что Newlines не существует. Вот мой код: импортные запросы импортируют импорт csv ...
вопрос задан: 19 February 2016 13:45
2
ответа

Как выбрать следующий одноуровневый элемент/тег XML с помощью xpath

У меня есть файл HTML (из Newegg), и их HTML организован как ниже. Все данные в их таблице спецификаций являются 'desc', в то время как заголовки каждого раздела находятся на 'имя'. Ниже два...
вопрос задан: 7 August 2015 06:03
2
ответа

Python-LXML: ValueError: все строки должны быть совместимы с XML [duplicate]

При попытке сгенерировать xml с использованием кода python я получаю эту ошибку: ValueError: все строки должны быть совместимы с XML: Unicode или ASCII, нет NULL-байтов или управляющих символов. Пожалуйста, помогите ...
вопрос задан: 16 June 2013 22:53
2
ответа

Python потребности lxml справка синтаксиса для парсинга HTML

Я являюсь совершенно новым к Python, и я нуждаюсь в некоторой помощи с синтаксисом для нахождения и итерации через теги HTML с помощью lxml. Вот примеры использования, с которыми я имею дело: файл HTML довольно хорошо формируется (но...
вопрос задан: 27 May 2013 08:58
2
ответа

Pretty Print XML, возвращающий ValueError [дубликат]

Извинения за новичок Вопрос Добавление этого фрагмента кода в мой скрипт: от lxml import etree как ET root = ET.fromstring (str (r.text)) xmlstr = ET.tostring (root, encoding = 'utf-8', pretty_print знак равно
вопрос задан: 5 April 2013 10:37
2
ответа

Запишите XML-файл с помощью lxml библиотекой в Python

Я использую lxml для создания XML-файла с нуля; наличие кода как это: от lxml импортируют корень etree = etree. Элемент ("корень") root.set ("интересный", "несколько") child1 = etree. SubElement (корень, "...
вопрос задан: 12 April 2011 19:12
2
ответа

Ошибка py2exe в exe-файле для Windows 7 [дубликат]

Я пытаюсь сделать exe-файл с -py2exe Вот мой код: импортные запросы из bs4 import BeautifulSoup import csv def get_html (url): r = запросы.get (url) return r.text url = 'http: //. ..
вопрос задан: 15 March 2011 10:13
2
ответа

При разборе html зачем мне иногда нужен item.text, а item.text_content () другие

Еще учу lxml. Я обнаружил, что иногда я не могу получить текст элемента из дерева, используя item.text. Если я использую item.text_content (), я в порядке. Я не уверен, что я понимаю, почему еще. Любой ...
вопрос задан: 19 August 2010 01:08
2
ответа

Существует ли способ вынудить lxml проанализировать строки Unicode, которые указывают кодирование в теге?

У меня есть XML-файл, который указывает кодирование, и я использую UnicodeDammit для преобразования его в unicode (по причинам устройства хранения данных, я не могу сохранить его как строку). Я позже передаю его lxml, но это отказывается игнорировать...
вопрос задан: 4 August 2010 04:13
2
ответа

Добавление атрибутов к существующим элементам, удаление элементов, и т.д. с lxml

Я анализирую в XML, использующем от etree дерева импорта lxml = etree.parse ('test.xml', etree. XMLParser ()) Теперь я хочу работать над проанализированным XML. Я испытываю затруднения при удалении элементов с пространствами имен или просто...
вопрос задан: 12 July 2010 21:58
2
ответа

как передать XML-файл lxml для парсинга?

Я пытаюсь проанализировать XML-файл с помощью lxml. xml.etree, позволил мне просто передавать имя файла в качестве параметра функции синтаксического анализа, таким образом, я попытался сделать то же с lxml. Мой код: от импорта lxml...
вопрос задан: 6 June 2010 13:24
2
ответа

Как использовать регулярное выражение в lxml xpath?

Я использую конструкцию как это: документ = синтаксический анализ (URL) .getroot () связывается = doc.xpath ("//[текст () = 'некоторый текст']"), Но я должен выбрать все ссылки, которые имеют текст, начинающийся "с некоторого текста",
вопрос задан: 3 May 2010 03:19
2
ответа

От завершенного HTML-> к регулярному HTML? - Python

Я использовал BeautifulSoup для обработки XML-файлов, которые я собрал через API REST. Ответы содержат HTML-код, но BeautifulSoup выходит из всех HTML-тэгов, таким образом, он может быть отображен приятно...
вопрос задан: 19 March 2010 04:25
2
ответа

Установка easy_install … для получения до установки lxml

Я боролся с тем, что ElementTree не собирается делать то, что я хочу, чтобы он сделал. Я проверил документацию для lxml, и кажется, что это будет служить моим целям. Получить lxml, меня...
вопрос задан: 3 March 2010 01:23
2
ответа

Парсинг поврежденного XML с lxml.etree.iterparse

Я пытаюсь проанализировать огромный XML-файл с lxml в памяти эффективный способ (т.е. передаю потоком лениво от диска вместо того, чтобы загрузить целый файл в памяти). К сожалению, файл содержит некоторый плохой ASCII...
вопрос задан: 1 March 2010 00:11
2
ответа

Синтаксический анализатор HTML для GAE

Обычно я использую lxml для своих потребностей парсинга HTML, но это не доступно на Google App Engine. Очевидной альтернативой является BeautifulSoup, но я нахожу, что это дросселирует слишком легко на уродливом HTML. В настоящее время я...
вопрос задан: 29 January 2010 11:29
2
ответа

XML, анализирующий с lxml и Python

Помогите мне разрешить свою проблему с lxml (я - новичок к lxml). Как может я получать "Комментарий 1" из следующего файла: <? версия xml = "1.0" кодирование = "окна 1251", автономный = "да"?> <!-...
вопрос задан: 14 January 2010 09:49