0
ответов

beautifulsoup findall

У меня есть xml:
<бесполезный тег> нефть, газ основной текст <статья>
вопрос задан: 9 May 2012 15:24
0
ответов

Удаление тегов html-изображений и всего, что между ними, из строки

Я видел ряд вопросов об удалении тегов HTML из строк, но я все еще немного не понимаю, как следует обрабатывать мой конкретный случай. Я видел, что во многих сообщениях рекомендуется не использовать обычные...
вопрос задан: 7 May 2012 17:23
0
ответов

Ошибка глубины рекурсии при использовании BeautifulSoup с многопроцессорной картой пула

Я использую BeautifulSoup для разбора html-файлов, в то время как все сценарии, которые я пишу, работают хорошо, но медленно. Итак, я экспериментирую с использованием многопроцессорного пула воркеров вместе с BeautifulSoup, так что мой...
вопрос задан: 29 April 2012 20:43
0
ответов

Python BeautifulSoup перебирает таблицу

Я пытаюсь очистить данные таблицы в файл CSV. К сожалению, я столкнулся с препятствием, и следующий код просто повторяет TD из первого TR для всех последующих TR. импортировать urllib.request...
вопрос задан: 25 April 2012 04:57
0
ответов

BeautifulSoup:Как заменить значение в элементе тегом элемента?

Скажите, что у меня есть этот фрагмент HTML:

Этот текст — мой текст

Как заменить первый "текст" на якорный элемент, поэтому результат становится :

Это...

вопрос задан: 20 April 2012 01:31
0
ответов

Используйте BeautifulSoup для извлечения текста перед первым дочерним тегом

Из этого источника html: Я хочу извлечь текст Категория: Вот мои попытки ...
вопрос задан: 14 April 2012 14:08
0
ответов

Beautifulsoup, достигнута максимальная глубина рекурсии

Это процедура Beautifulsoup, которая захватывает содержимое всех HTML-тегов

. После захвата контента с некоторых веб-страниц я получаю сообщение об ошибке, в котором говорится, что превышена максимальная глубина рекурсии. def...

вопрос задан: 12 April 2012 06:01
0
ответов

Ошибка Юникода при выводе вывода скрипта Python в файл

Вот код: print '"' + title.decode ('utf-8', error='ignore') + '",' \ ' "' + title.decode('utf-8', error='ignore') + '", ' \ '"' + desc .decode('utf-8', errors='ignore') + '")' ...
вопрос задан: 4 April 2012 19:51
0
ответов

python BeautifulSoup ищет тег

Мой первый пост здесь, я пытаюсь найти все теги в этом конкретном html, и я не могу их получить, это код: from bs4 import BeautifulSoup from urllib import urlopen url = "http://www.jutarnji....
вопрос задан: 30 March 2012 17:47
0
ответов

Анализ HTML с помощью BeautifulSoup 4 и Python

Я пытаюсь проанализировать список результатов http://mobile.de. Сначала я попробовал это с классом HTMLParser, но получил ошибку: HTMLParser.HTMLParseError: EOF в середине конструкции. Итак, я попробовал это с помощью ...
вопрос задан: 30 March 2012 08:44
0
ответов

как мне установить красивый суп для python на моем Mac? см. ошибку

Я использую Mac OS X 10.7.3 на Macbook Pro. Он поставляется с установленным Python 2.7.1. Мне нужна красивая суповая библиотека. Итак, я сделал следующее: 1) зашел на crummy.com и скачал beautifulsoup4-4.0.2....
вопрос задан: 26 March 2012 16:45
0
ответов

Извлечение данных из HTML-файлов с помощью BeautifulSoup и Python

Мне нужно извлекать данные из HTML-файлов. Рассматриваемые файлы, скорее всего, генерируются автоматически. Я загрузил код одного из этих файлов в Pastebin: http://pastebin.com/9Nj2Edfv. Это...
вопрос задан: 20 March 2012 13:31
0
ответов

Найти все таблицы в html с помощью BeautifulSoup

Я хочу найти все таблицы в html с помощью BeautifulSoup. Внутренние таблицы должны быть включены во внешние таблицы. Я создал код, который работает и дает ожидаемый результат. Но мне это не нравится...
вопрос задан: 20 March 2012 08:38
0
ответов

Как с помощью Beautiful Soup установить значение в некотором элементе HTML, если я знаю идентификатор этого элемента или класса?

Как с помощью Beautiful Soup установить значение в некотором элементе, если я знаю идентификатор этого HTML-элемента или класса? Например, у меня есть , и я хочу установить текст RESTORE... например,
вопрос задан: 19 March 2012 08:31
0
ответов

Удаление тегов скрипта и стиля из HTML с помощью BeautifulSoup?

У меня есть простой сценарий, в котором я получаю HTML-страницу и передаю ее в BeautifulSoup, чтобы удалить все теги скриптов и стилей, затем я хочу передать результат HTML другому методу. Есть ли простой способ ...
вопрос задан: 16 March 2012 02:19
0
ответов

Быстрый синтаксический анализатор HTML на Python [закрыто]

Я написал скрипт на Python, который обрабатывает большое количество загруженных веб-страниц HTML (120 тыс. страниц). Мне нужно разобрать их и извлечь оттуда некоторую информацию. Я пробовал использовать BeautifulSoup, это легко...
вопрос задан: 12 March 2012 16:27
0
ответов

Скрапинг данных из веб-страниц с помощью Python?

Я только начал изучать парсинг веб-страниц с помощью Python. Однако я уже столкнулся с некоторыми проблемами. Моя цель — извлечь из сети названия различных видов тунца с сайта fishbase.org (http://www.fishbase....
вопрос задан: 5 March 2012 07:23
0
ответов

Как извлечь атрибуты CSS из встроенных стилей с помощью BeautifulSoup

У меня есть что-то вроде этого: Я использую beautifulsoup для синтаксического анализа HTML. Это ...
вопрос задан: 14 February 2012 03:37
0
ответов

Выбор определенных тегов с помощью BeautifulSoup

Я получаю несколько строк таблицы html с помощью BeautifulSoup с помощью этого фрагмента кода : from bs4 import BeautifulSoup импортировать urllib2 import re page = urllib2.urlopen ('www.something.bla') soup = BeautifulSoup (...
вопрос задан: 12 February 2012 23:21
0
ответов

beautifulsoup возвращает данные как None, которые включают тег

У меня есть такие данные в таблице:
Имя Город
вопрос задан: 6 February 2012 06:33
0
ответов

Модуль Python BeautifulSoup, извлекающий привязки href

Я использую модуль BeautifulSoup для выбора всех href из html следующим образом: def extract_links (html): soup = BeautifulSoup (html) anchors = soup.findAll ('a') print anchors links = [] для in ...
вопрос задан: 29 January 2012 23:37
0
ответов

BeautifulSoup: Вычеркнуть указанные атрибуты, но сохранить тег и его содержимое

Я пытаюсь "дефронтпагифицировать" html сайта, созданного MS FrontPage, и пишу для этого скрипт BeautifulSoup. Однако я застрял на той части, где я пытаюсь отделить определенный ...
вопрос задан: 28 January 2012 09:03
0
ответов

Использование BeautifulSoup для поиска строки в HTML

Я использую BeautifulSoup для поиска строк, введенных пользователем. конкретная страница. Например, я хочу увидеть, находится ли строка «Python» на странице: http://python.org Когда я использовал: find_string = ...
вопрос задан: 20 January 2012 02:18
0
ответов

beautiful soup getting href based on a text

Допустим, есть страница с сотнями ссылок, каждая из которых имеет уникальный текст в теге a. Как я могу указать текст тега a и затем получить оттуда href? Например, для a в soup.findAll('a', href=True): ...
вопрос задан: 6 January 2012 07:28
0
ответов

Получение n-го элемента с помощью BeautifulSoup

Из большой таблицы я хочу прочитать строки 5, 10, 15, 20 ... с помощью BeautifulSoup. Как мне это сделать? Можно ли использовать findNextSibling и увеличивающийся счетчик?
вопрос задан: 4 January 2012 09:09
0
ответов

Как я могу получить информацию из тега в тегах

все. У меня быстрый вопрос о BeautifulSoup с Python. У меня есть несколько фрагментов HTML, которые выглядят следующим образом (единственные различия - это ссылки и названия продуктов), и я пытаюсь получить ссылку из ...
вопрос задан: 18 December 2011 14:31
0
ответов

BeautifulSoup: получить имя тега самого элемента, а не его дочерних элементов

У меня есть приведенный ниже (упрощенный) код, который использует следующий источник:

строка 1

soup = ...
вопрос задан: 16 December 2011 11:54
0
ответов

BeautifulSoup и несколько абзацев

Я пытаюсь очистить речь с веб-сайта с помощью BeautifulSoup. Однако у меня возникают проблемы, так как речь разбита на много разных абзацев. Я новичок в программировании и ...
вопрос задан: 30 November 2011 21:18
0
ответов

Распечатать HTML-текст веб-элемента selenium в Python

Я использую веб-драйвер Selenium в Python для проекта веб-скрапинга.Как распечатать HTML-текст selenium.WebElement? Я намереваюсь использовать BeautifulSoup для синтаксического анализа HTML и извлечения данных о ...
вопрос задан: 29 November 2011 18:54