8
ответов

f.write записывать только последнюю строку данных из beautifulsoup [duplicate]

im scraping с помощью beautifulsoup4, и когда я схожу, напишу свой суп в файл, я просто хочу написать текст того, что я очистил. Im работает в проблему, что только последняя строка данных scraped ...
вопрос задан: 22 December 2016 22:12
8
ответов

Очистите динамический веб-сайт

Что лучший метод должен очистить динамический веб-сайт, где большая часть содержания сгенерирована тем, что, кажется, запросы ajax? У меня есть предыдущий опыт с Механизированием, BeautifulSoup и Python...
вопрос задан: 16 October 2008 00:16
6
ответов

Анализ экранных данных: обходя “Ошибку HTTP 403: запрос запрещен robots.txt”

Существует ли способ обойти следующее? httperror_seek_wrapper: Ошибка HTTP 403: запрос, запрещенный robots.txt, Является единственным путем вокруг этого для контакта с владельцем сайта (barnesandnoble.com).. я...
вопрос задан: 17 May 2010 00:35
6
ответов

Красивый Суп и извлечение отделения и его содержания идентификатором

soup.find ("tagName", {"идентификатор": "articlebody"}), Почему это НЕ возвращает <идентификатор отделения = "articlebody">... </отделение> теги и наполняет промежуточный? Это ничего не возвращает. И я з
вопрос задан: 26 January 2010 21:48
5
ответов

получить ссылки с веб-страницы, используя python и BeautifulSoup

Как я могу получить ссылки на веб-странице и скопировать URL-адрес ссылок, используя Python?
вопрос задан: 3 May 2019 05:41
5
ответов

Python - beautifulsoup: Find & lt; li & gt; by data-author - добавить фильтр [duplicate]

у меня есть суп, где я хочу найти следующее & lt; li>, но у меня нет идентификатора, поэтому я бы поискал по-автору: & lt; li id ​​= "post-abcd45834hfds53" class = "message" data-author = "Master-Rudi" & gt; ...
вопрос задан: 18 December 2015 11:03
5
ответов

Как искать похожие строки на веб-странице? [Дубликат]

Я использую BeautifulSoup для очистки веб-страниц и поиска элементов с конкретными текстами. Однако функции поиска супа и find_all возвращают только точные соответствия. Я бы хотел использовать fuzzywuzzy или soundex для просмотра ...
вопрос задан: 27 July 2015 01:02
5
ответов

Найти определенный тег [duplicate]

Я попытался использовать Bs4 в сочетании с регулярным выражением, чтобы найти определенный тег, но без успеха. Используя это: для url в title_detail.find_all ('a', href = re.compile ('/ search / title?')): Print (url) Ouput: & ...
вопрос задан: 7 October 2012 08:31
5
ответов

как извлечь имя свойства класса divs в python? [Дубликат]

Я хочу использовать python beautifulsoup для извлечения имени свойства класса в части содержимого html. Например, & lt; td & gt; & lt; div class = "na" & gt; & lt; / div & gt; & lt; / td & gt ;, "na" - это строка, которую я хочу получить, ...
вопрос задан: 10 April 2010 07:53
5
ответов

Попытка очистить источник изображения с помощью Beautiful Soup и Python [duplicate]

Я пытаюсь получить источник изображения в теге, у меня есть фрагмент кода html ниже. & lt; img alt = «Магеллан на открытом воздухе Мужская лагуна Мадре с твердым коротким рукавом ...
вопрос задан: 10 April 2010 07:53
5
ответов

BeautifulSoup - получить значение из внутреннего тега [duplicate]

У меня есть следующий код Python: для документа в курсоре: deal_url = document ['deal_link'] soup = helpers.get_page_soup (deal_url), если суп: image_link = soup.find ("meta" ...
вопрос задан: 10 April 2010 07:53
4
ответа

Поиск значения в классе div

Я анализирую сайт, где я сталкиваюсь с чем-то вроде: < div class = "class-name" data-fmid = "somenumber" > Используя красивый суп, как я могу извлечь somenumber? Я сейчас получаю ...
вопрос задан: 10 March 2019 04:38
4
ответа

Python: как напечатать только n-ую строку в результате print ()

только недавно изучил веб-скребинг с использованием Python 3 и Beautifulsoup. У меня проблема с печатью единственной строки, которую я хочу. Ниже я предоставляю код, который я использую. product_sizes = view_product.find ('dl', id = 'dl_1') ...
вопрос задан: 19 January 2019 12:07
4
ответа

Как я могу перевести это выражение XPath в BeautifulSoup?

В ответе на предыдущий вопрос несколько человек предложили, чтобы я использовал BeautifulSoup для своего проекта. Я боролся с их документацией, и я просто не могу проанализировать ее. Может кто-то указывать на меня на...
вопрос задан: 23 May 2017 12:34
4
ответа

Я могу изменить поведение BeautifulSoup относительно преобразования XML-тэгов к нижнему регистру?

Я работаю над кодом для парсинга конфигурационного файла, записанного в XML, где XML-тэги являются смешанным случаем, и случай является значительным. Красивый Суп, кажется, преобразовывает XML-тэги в нижний регистр по умолчанию...
вопрос задан: 23 May 2017 11:50
4
ответа

BeautifulSoup: Получите содержание определенной таблицы

Мой локальный аэропорт позорно блокирует пользователей без IE и выглядит ужасным. Я хочу записать Python сценарии, которые получили бы содержание страниц Arrival и Departures каждые несколько минут и шоу...
вопрос задан: 19 February 2017 22:46
4
ответа

Objective C, определяющий константы UIColor

У меня есть приложение для iPhone с несколькими пользовательски определенными цветами для моей темы. Так как эти цвета будут зафиксированы для моего UI, я хотел бы определить цвета в классе, который будет включен (Constants.h и...
вопрос задан: 13 May 2010 02:54
4
ответа

Парсинг HTML в Python - lxml или BeautifulSoup? Какой из них лучше для какой виды целей?

Из того, что я могу разобрать, две основных библиотеки парсинга HTML в Python являются lxml и BeautifulSoup. Я выбрал BeautifulSoup для проекта, я продолжаю работать, но я выбрал его ни по какой конкретной причине...
вопрос задан: 17 December 2009 04:08
4
ответа

Разложение HTML к тексту ссылки и цели

Учитывая ссылку HTML как <href = "urltxt" класс = "someclass" близко = "верный"> texttxt </a>, как я могу изолировать URL и текст? Обновления я использую Красивый Суп и не могу фигурировать...
вопрос задан: 22 November 2009 09:20
4
ответа

HTML-коды объектов в текст [дубликаты]

Кто-нибудь знает простой способ в Python преобразовать строку с кодами сущностей HTML (например, < & amp;) в обычную строку (например, <&)? cgi.escape () будет экранировать строки (плохо), но там ...
вопрос задан: 19 March 2009 17:43
4
ответа

Какова ближайшая альтернатива Красивого Супа для Ruby?

Я люблю Красивую библиотеку очистки Супа в Python. Это просто работает. Существует ли завершение, эквивалентное в Ruby?
вопрос задан: 12 March 2009 19:10
4
ответа

Совместимость Python 3 BeautifulSoup

BeautifulSoup работает с Python 3? В противном случае, как скоро там будет порт? Будет порт вообще? Google ничего не поднимает ко мне (Возможно, это - потому что я ищу неправильную вещь?)
вопрос задан: 29 September 2008 16:49
3
ответа

Показать все абзацы очищенного HTML-div в Django

Итак, у меня есть извлеченный HTML-div с новостного сайта. Что это за фрагмент HTML: < div class = "cn-content" > < figure > < img src = "https://cimg.co/w/articles-attachments/1/5ca/71a090479e.jpg" ...
вопрос задан: 14 April 2019 08:41
3
ответа

Как перенести столбец данных в одну строку с несколькими столбцами в Python?

Я пытаюсь собрать некоторые данные с веб-сайта, и мне удается собрать важную информацию, но когда я печатаю ее в файл Excel, данные просто перетекают в один столбец. Есть ли ...
вопрос задан: 28 March 2019 04:58
3
ответа

Предоставлен список сайтов, поиск и возврат информации в Python

Я создал функцию, которая возвращает список URL с указанием названия конкретной компании. Я хочу узнать поиск по этому списку URL-адресов и найти информацию о том, принадлежит ли компания другому ...
вопрос задан: 20 March 2019 22:18
3
ответа

извлечение данных из следующего диапазона в том же теге h1 в BeautifulSoup

Привет, я пытаюсь очистить подкатегорию subcat = soup.find (класс _ = 'bread-block-wrap'). Find (класс _ = 'breadcrumb-keyword-bg'). Find (класс _ = 'breadcrumb-keyword list-responseive-container ') .find (класс _ =' щ -...
вопрос задан: 6 March 2019 19:51
3
ответа

Как зациклить клик с селеном и очистить каждую таблицу с помощью bs4?

Я пытаюсь очистить некоторые скрытые таблицы (15 таблиц на страницу), которые раскрываются после нажатия стрелки. (Я прилагаю картинки: нерасширенные таблицы, расширяемые таблицы) Я тоже прикрепляю HTML (...
вопрос задан: 19 January 2019 15:05
3
ответа

Python BeautifulSoup циклически просматривая данные таблиц

Очень новый для Python здесь. Я пытаюсь захватить некоторые данные с этой страницы этой страницы. Я пытаюсь получить имя элемента и тип элемента в двух списках. Я могу понять, как объединить их в одну ...
вопрос задан: 17 January 2019 14:48
3
ответа

Извлечение текстов, содержащихся в теге html, с символом авторского права © с использованием Python 3

Мне нужно проверить, имеет ли веб-страница символ авторского права ©, и если да, я извлекаю тексты тега, содержащего символ. Например, для веб-страницы «profile.theguardian.com/signin» целевые тексты ...
вопрос задан: 13 July 2018 20:44
3
ответа

Скребки и петли мета-теги с красивым супом

Ниже находится веб-скребок, который использует красивый суп, чтобы очистить список команд с этого веб-сайта. Каждый столбец данных помещается в массив, где он затем перебирается в CSV-файл. Я бы хотел ...
вопрос задан: 13 July 2018 06:26