0
ответов

BeautifulSoup и lxml.html - что предпочесть ? [duplicate]

Я работаю над проектом, который будет включать синтаксический анализ HTML. После поиска я нашел два возможных варианта: BeautifulSoup и lxml.html. Есть ли причина предпочесть один другому? У меня ...
вопрос задан: 11 February 2011 08:49
0
ответов

Самый быстрый, простой и лучший способ разобрать таблицу HTML?

Я пытаюсь понять это table http://www.datamystic.com/timezone/time_zones.html в формат массива, чтобы я мог делать с ним все, что захочу. Желательно на PHP, Python или JavaScript. Это своего рода ...
вопрос задан: 4 February 2011 00:52
0
ответов

Глубина первого обхода в дереве синтаксического анализа BeautifulSoup

Есть ли способ выполнить DFT на дерево синтаксического анализа BeautifulSoup? Я пытаюсь сделать что-то вроде начала с корня, обычно получаю все дочерние элементы, а затем для каждого дочернего элемента получаю их потомков ...
вопрос задан: 27 January 2011 08:54
0
ответов

Более быстрый / менее ресурсоемкий способ удалить HTML из больших файлов, чем BeautifulSoup? Или как лучше использовать BeautifulSoup?

В настоящее время у меня возникают проблемы с вводом этого кода, потому что, согласно top, мой процессор загружен на 100%, а моя память - на 85,7%, и все это занято питоном. Почему? Потому что у меня был файл размером 250 мегабайт ...
вопрос задан: 24 January 2011 12:15
0
ответов

Как пройти через набор данных html-table в Python

Я впервые пишу здесь, пытаясь овладеть некоторыми навыками Python; пожалуйста, будьте добры ко мне :-) Хотя я не совсем новичок в концепциях программирования (раньше я возился с PHP), ...
вопрос задан: 7 January 2011 02:54
0
ответов

Вложенные теги BeautifulSoup

Я пытаюсь проанализировать XML с помощью Beautifulsoup, но ударился о кирпичную стену при попытке использовать «рекурсивный» атрибут с помощью findall (). У меня довольно странный XML-формат, показанный ниже:
вопрос задан: 4 January 2011 23:21
0
ответов

Как разобрать xml в Python на Google App Engine

Для этого следующего xml, как мне получить xml, а затем проанализировать его, чтобы получить значение для ? 1995
вопрос задан: 29 December 2010 20:30
0
ответов

BeautifulSoup: get contents[] as a single string

Anyone know an elegant way to get the entire contents of a soup object as a single string? At the moment I'm getting contents, which is of course a list, and then iterating over it: notices = soup....
вопрос задан: 20 December 2010 10:39
0
ответов

Красивый суп для анализа URL, чтобы получить другие данные URL

Мне нужно проанализировать URL-адрес, чтобы получить список URL-адресов, которые ссылаются на страницу сведений. Затем с этой страницы мне нужно получить все подробности с этой страницы. Мне нужно сделать это таким образом, потому что URL страницы подробн
вопрос задан: 16 December 2010 14:55
0
ответов

Использование BeautifulSoup для захвата всего HTML-кода между двумя тегами

У меня есть HTML-код, который выглядит примерно так:

Title

// произвольное количество p / ul или текста без тегов

Next Title

Я хочу скопировать весь HTML из первого h1 в ...
вопрос задан: 16 December 2010 01:30
0
ответов

создание редактора wysiwyg

Мне нужно создать редактор wysiwyg для проекта, над которым я работаю и нуждаюсь в некотором руководстве. Вот некоторые из моих ключевых моментов, вызывающих путаницу: документы iframe или контентные div: какой из них мне выбрать ...
вопрос задан: 13 December 2010 07:42
0
ответов

Использование Beautiful Soup для удаления тегов html из строки

У кого-нибудь есть какой-то пример кода, который показывает, как использовать Python Beautiful Soup для удаления всех тегов html, кроме некоторых, из строки текста? Я хочу удалить все теги javascript и html ...
вопрос задан: 12 December 2010 20:48
0
ответов

BeautifulSoup: Как мне извлечь все
  • из списка
  • Мой исходный код выглядит так:

    Header3 (начать здесь)

    • Элементы списка
    • И т. д.

    Заголовок 3

      ...
    вопрос задан: 6 December 2010 05:31
    0
    ответов

    с использованием BeautifulSoup для вставки элемента перед закрытием тела

    Каков наиболее эффективный способ вставить элемент в качестве последнего в тело HTML-страницы?
    вопрос задан: 1 December 2010 00:58
    0
    ответов

    Разбор документа с помощью BeautifulSoup без анализа содержимого тегов

    Я пишу приложение для блога с помощью Django. Я хочу разрешить авторам комментариев использовать некоторые теги (например, , a и т. Д.), Но отключить все остальные. К тому же, Я хочу, чтобы они помещали код в
    вопрос задан: 24 October 2010 08:03
    0
    ответов

    Поиск определенного тега с помощью BeautifulSoup

    Я могу легко перемещаться по общим тегам с помощью BS, но я не знаю, как найти конкретные теги. Например, как мне найти все случаи появления
    ? Возможно ли это с помощью BS?
    вопрос задан: 15 October 2010 20:11
    0
    ответов

    Проблема с Makefile: умный способ сканировать дерево каталогов на наличие файлов .c

    Я работаю над проектом, который довольно быстро растет, и поддерживать объектные файлы в актуальном состоянии - не вариант. Проблема, выходящая за рамки команды с подстановочными знаками, находится где-то между «Мне не нужны рекурсивные файлы makefile» и
    вопрос задан: 23 September 2010 00:17
    0
    ответов

    How to make Beautiful Soup output HTML entities?

    I'm trying to sanitize and XSS-proof some HTML input from the client. I'm using Python 2.6 with Beautiful Soup. I parse the input, strip all tags and attributes not in a whitelist, and transform the ...
    вопрос задан: 10 September 2010 12:50
    0
    ответов

    beautifulsoup, Найдите th с текстом 'ценой', затем получите цену от следующего th

    Мой HTML похож: <td> <таблица..> <TR> <th..> цена </th> <th> 99,99$ </th> </TR> </таблица> </td> Так я...
    вопрос задан: 31 July 2010 04:30