Я работаю над проектом, который будет включать синтаксический анализ HTML. После поиска я нашел два возможных варианта: BeautifulSoup и lxml.html. Есть ли причина предпочесть один другому? У меня ...
Я пытаюсь понять это table http://www.datamystic.com/timezone/time_zones.html в формат массива, чтобы я мог делать с ним все, что захочу. Желательно на PHP, Python или JavaScript. Это своего рода ...
Есть ли способ выполнить DFT на дерево синтаксического анализа BeautifulSoup? Я пытаюсь сделать что-то вроде начала с корня, обычно получаю все дочерние элементы, а затем для каждого дочернего элемента получаю их потомков ...
В настоящее время у меня возникают проблемы с вводом этого кода, потому что, согласно top, мой процессор загружен на 100%, а моя память - на 85,7%, и все это занято питоном. Почему? Потому что у меня был файл размером 250 мегабайт ...
Я впервые пишу здесь, пытаясь овладеть некоторыми навыками Python; пожалуйста, будьте добры ко мне :-) Хотя я не совсем новичок в концепциях программирования (раньше я возился с PHP), ...
Я пытаюсь проанализировать XML с помощью Beautifulsoup, но ударился о кирпичную стену при попытке использовать «рекурсивный» атрибут с помощью findall (). У меня довольно странный XML-формат, показанный ниже: xml version = "1.0"? & ...
Anyone know an elegant way to get the entire contents of a soup object as a single string? At the moment I'm getting contents, which is of course a list, and then iterating over it: notices = soup....
Мне нужно проанализировать URL-адрес, чтобы получить список URL-адресов, которые ссылаются на страницу сведений. Затем с этой страницы мне нужно получить все подробности с этой страницы. Мне нужно сделать это таким образом, потому что URL страницы подробн
Мне нужно создать редактор wysiwyg для проекта, над которым я работаю и нуждаюсь в некотором руководстве. Вот некоторые из моих ключевых моментов, вызывающих путаницу: документы iframe или контентные div: какой из них мне выбрать ...
У кого-нибудь есть какой-то пример кода, который показывает, как использовать Python Beautiful Soup для удаления всех тегов html, кроме некоторых, из строки текста? Я хочу удалить все теги javascript и html ...
Я пишу приложение для блога с помощью Django. Я хочу разрешить авторам комментариев использовать некоторые теги (например, , a и т. Д.), Но отключить все остальные. К тому же, Я хочу, чтобы они помещали код в
Я работаю над проектом, который довольно быстро растет, и поддерживать объектные файлы в актуальном состоянии - не вариант. Проблема, выходящая за рамки команды с подстановочными знаками, находится где-то между «Мне не нужны рекурсивные файлы makefile» и
I'm trying to sanitize and XSS-proof some HTML input from the client. I'm using Python 2.6 with Beautiful Soup. I parse the input, strip all tags and attributes not in a whitelist, and transform the ...