Я начал очищать веб-страницы, однако мой текст имеет число 0.01, прикрепленное к нему. Например, мне хотелось бы, чтобы имя «Doe, John0.01» выглядело как «Doe, John». Вот код до сих пор ... от urllib ....
У меня есть следующий код: из lxml import etree из io import StringIO html = "" "" Привет, мир! "& Lt; span class =" black "& gt; & lt; div class =" c1 "& gt; деление & lt; p & gt;" Привет, это я. (c) ...
Я попробовал это и работал в к проблемам набор времен в прошлом. У кого-либо есть рецепт для установки lxml на OS X без MacPorts или Fink, который определенно работает? Предпочтительно с полными 1-...
Я пытаюсь создать программу для сбора информации о тенденциях цен от https://www.cardmarket.com/ru/Magic с помощью Python, lxml и запроса. Мне удалось собрать все необходимые данные, кроме одного ...
Я пытаюсь использовать html5lib для парсинга страницы HTML в к чему-то, что я могу запросить с xpath. html5lib имеет близко к нулевой документации, и я провел слишком много времени, пытаясь понять эту проблему...
Из того, что я могу разобрать, две основных библиотеки парсинга HTML в Python являются lxml и BeautifulSoup. Я выбрал BeautifulSoup для проекта, я продолжаю работать, но я выбрал его ни по какой конкретной причине...
Я пытаюсь использовать 'py2app' для генерации автономного приложения из некоторых сценариев Python. Python использует 'lxml' пакет, и я нашел, что должен указать это явно в setup.py...
Поэтому я пытаюсь очистить HTML. У меня есть следующая функция: def clean_html (self, html): replace_html = html.decode ('utf-8'). Replace ('<', '<') tree = etree.HTML (...
После дополнительных исследований я нашел решение для установки lxml с pip и wheel. Дополнительные комментарии по подходу приветствуются. Я нахожу существующую документацию по Python для дистрибутивов Linux ...
Я использую запросы и lxml с python 2.7, чтобы найти текст на веб-странице. spam = html.find ('.// p [@ class = "spam"]') eggs = html.find ('.// p [@ class = "eggs"]'), если спам: print ('spam and ветчина '), если яйца: ...
Я новичок в работе со сравнительно большими xml-файлами, и теперь я сталкиваюсь со следующей проблемой: я использую пакет lxml для анализа 348,9 МБ xml-файла и контролировал использование ОЗУ с помощью ...
Я пытаюсь удалить все в XML-документе между 2 тегами, с помощью Python и lxml., которым проблема состоит в том, что теги могут быть в различных ответвлениях дерева (но всегда на той же глубине)...
Я пытаюсь сделать веб-скребок, который проанализирует веб-страницу публикаций и извлечет авторов. Скелетная структура веб-страницы следующая: <HTML> <тело> <идентификатор отделения = "...
Я закодировал сценарий python 3, который выводит отформатированный XML-вывод RSS. Но когда я открываю выходной XML-файл в Chrome, я вижу, что Newlines не существует. Вот мой код: импортные запросы импортируют импорт csv ...
У меня есть файл HTML (из Newegg), и их HTML организован как ниже. Все данные в их таблице спецификаций являются 'desc', в то время как заголовки каждого раздела находятся на 'имя'. Ниже два...
При попытке сгенерировать xml с использованием кода python я получаю эту ошибку: ValueError: все строки должны быть совместимы с XML: Unicode или ASCII, нет NULL-байтов или управляющих символов. Пожалуйста, помогите ...
Я являюсь совершенно новым к Python, и я нуждаюсь в некоторой помощи с синтаксисом для нахождения и итерации через теги HTML с помощью lxml. Вот примеры использования, с которыми я имею дело: файл HTML довольно хорошо формируется (но...
Извинения за новичок Вопрос Добавление этого фрагмента кода в мой скрипт: от lxml import etree как ET root = ET.fromstring (str (r.text)) xmlstr = ET.tostring (root, encoding = 'utf-8', pretty_print знак равно
Я использую lxml для создания XML-файла с нуля; наличие кода как это: от lxml импортируют корень etree = etree. Элемент ("корень") root.set ("интересный", "несколько") child1 = etree. SubElement (корень, "...
Еще учу lxml. Я обнаружил, что иногда я не могу получить текст элемента из дерева, используя item.text. Если я использую item.text_content (), я в порядке. Я не уверен, что я понимаю, почему еще. Любой ...
У меня есть XML-файл, который указывает кодирование, и я использую UnicodeDammit для преобразования его в unicode (по причинам устройства хранения данных, я не могу сохранить его как строку). Я позже передаю его lxml, но это отказывается игнорировать...
Я анализирую в XML, использующем от etree дерева импорта lxml = etree.parse ('test.xml', etree. XMLParser ()) Теперь я хочу работать над проанализированным XML. Я испытываю затруднения при удалении элементов с пространствами имен или просто...
Я пытаюсь проанализировать XML-файл с помощью lxml. xml.etree, позволил мне просто передавать имя файла в качестве параметра функции синтаксического анализа, таким образом, я попытался сделать то же с lxml. Мой код: от импорта lxml...
Я использую конструкцию как это: документ = синтаксический анализ (URL) .getroot () связывается = doc.xpath ("//[текст () = 'некоторый текст']"), Но я должен выбрать все ссылки, которые имеют текст, начинающийся "с некоторого текста",
Я использовал BeautifulSoup для обработки XML-файлов, которые я собрал через API REST. Ответы содержат HTML-код, но BeautifulSoup выходит из всех HTML-тэгов, таким образом, он может быть отображен приятно...
Я боролся с тем, что ElementTree не собирается делать то, что я хочу, чтобы он сделал. Я проверил документацию для lxml, и кажется, что это будет служить моим целям. Получить lxml, меня...
Я пытаюсь проанализировать огромный XML-файл с lxml в памяти эффективный способ (т.е. передаю потоком лениво от диска вместо того, чтобы загрузить целый файл в памяти). К сожалению, файл содержит некоторый плохой ASCII...
Обычно я использую lxml для своих потребностей парсинга HTML, но это не доступно на Google App Engine. Очевидной альтернативой является BeautifulSoup, но я нахожу, что это дросселирует слишком легко на уродливом HTML. В настоящее время я...
Помогите мне разрешить свою проблему с lxml (я - новичок к lxml). Как может я получать "Комментарий 1" из следующего файла: <? версия xml = "1.0" кодирование = "окна 1251", автономный = "да"?> <!-...