0
ответов

Вход на веб-сайт с помощью инструмента веб-очистки в Python

Я использую веб-драйвер Selenium в Python для проекта очистки веб-страниц. Я хочу войти в систему, введя данные для входа и нажав кнопку «Отправить». Я могу ввести имя пользователя и ...
вопрос задан: 29 November 2011 01:21
0
ответов

Python 2.7 Прекрасный Soup Img Src Extract

for imgsrc in Soup.findAll('img', {'class': 'sizedProdImage'}): if imgsrc: imgsrc = imgsrc else: imgsrc = "ERROR" patImgSrc = re.compile('src="(.*)".*/>') findPatImgSrc = ...
вопрос задан: 27 November 2011 23:35
0
ответов

Как с помощью Python анализировать страницу с бесконечной прокруткой (например, Wallbase.cc/search/sky)?

Не уверен, есть ли что-нибудь с Mechanize или BeautifulSoup, что могло бы помощь. Любые предложения будут ценны!
вопрос задан: 16 November 2011 17:30
0
ответов

Как мне извлечь данные таблицы в пары с помощью BeautifulSoup?

Мой образец данных:
Google 11.07.2001 CA & ...
вопрос задан: 15 November 2011 21:53
0
ответов

BeautifulSoup innerhtml?

Допустим, у меня есть страница с div. Я могу легко получить этот div с помощью soup.find (). Теперь, когда у меня есть результат, я хотел бы распечатать ВЕСЬ innerhtml этого div: я имею в виду, мне понадобится строка со ВСЕМИ ...
вопрос задан: 13 November 2011 16:29
0
ответов

Как преобразовать BeautifulSoup.ResultSet в строку

Итак, я проанализировал html-страницу с помощью .findAll (BeautifulSoup) в переменной с именем result. Если я ввожу результат в оболочке Python и нажимаю Enter, я вижу нормально текст, как и ожидалось, но так как я хотел обработать это ...
вопрос задан: 16 October 2011 07:07
0
ответов

pip install package с url

pip install http://www.crummy.com/software/BeautifulSoup/unreleased/4.x/BeautifulSoup-4.0b.tar. gz устанавливает пакет bs4, и все в порядке. Но если я добавлю эту строку в файл requirements.txt http: // ...
вопрос задан: 14 October 2011 14:09
0
ответов

Найти конкретную ссылку с beautifulsoup

Привет, я не могу понять, как найти ссылки, которые начинаются с определенного текста на всю жизнь меня. findall ('a') работает нормально, но это слишком. Я просто хочу составить список всех ссылок, которые начинаются с http: ...
вопрос задан: 11 October 2011 21:23
0
ответов

BeautifulSoup: AttributeError: объект 'NavigableString' не имеет атрибута 'name'

Вы знаете, почему первый пример в BeautifulSoup руководство http://www.crummy.com/software/BeautifulSoup/documentation.html#QuickStart дает AttributeError: объект 'NavigableString' не имеет атрибута '...
вопрос задан: 29 September 2011 01:38
0
ответов

Получение событий установки и удаления пакета

Я пытаюсь определить, когда устанавливается новое приложение, но только если оно запущено. Мне удалось обнаружить установку приложения, сделав BroadcastReceiver и активировав его внутри...
вопрос задан: 19 September 2011 11:46
0
ответов

Проблемы с кодировкой Python и BeautifulSoup

Я пишу краулер на Python, используя BeautifulSoup, и все шло гладко, пока я не наткнулся на этот сайт: http: // www. elnorte.ec/ Я получаю содержимое с помощью библиотеки запросов: r = ...
вопрос задан: 28 August 2011 06:18
0
ответов

Получить текст вне одного тега и внутри другого

Я анализирую веб-страницу с помощью BeautifulSoup, и на ней есть некоторые элементы, подобные следующим:
Регистрационный номер консультанта:
вопрос задан: 25 August 2011 16:08
0
ответов

Сохранить пространство при удалении HTML с помощью Beautiful Soup

из BeautifulSoup import BeautifulSoup html = "

Пункт 1. Слова

Объединить. Пункт 2

Цитата 1
Цитата 2

" распечатать html ...
вопрос задан: 16 August 2011 01:50
0
ответов

Проверка атрибутов в BeautifulSoup?

Я анализирую некоторые данные из HTML, просматривая элементы на определенном уровне с помощью nextSibling и выполняя разные действия в зависимости от имени тега и класса каждого обнаруженного элемента. Например, ...
вопрос задан: 10 August 2011 19:01
0
ответов

напишите xml с красивым супом

это может быть действительно глупый вопрос, но я не сразу нашел ответ. как только я изменю xml-дерево по мере необходимости, как мне записать его обратно в файл? code: workbook = open ("C: \\ Users \\ rabdel ....
вопрос задан: 19 July 2011 19:55
0
ответов

تحليل HTML مع Python 2.7 - HTMLParser أو SGMLParser أو Beautiful Soup؟

أريد للقيام ببعض تجريف الشاشة باستخدام Python 2.7 ، وليس لدي سياق للاختلافات بين HTMLParser أو SGMLParser أو Beautiful Soup. هل يحاول هؤلاء جميعًا حل نفس المشكلة ، أم يفعلون ...
вопрос задан: 27 June 2011 14:53
0
ответов

извлечение элемента и вставка пробела

Я анализирую HTML с помощью BeautifulSoup в Python. Я не знаю, как вставить пробел при извлечении текстового элемента. Вот код: import BeautifulSoup soup = BeautifulSoup.BeautifulSoup (' ...
вопрос задан: 24 June 2011 11:22
0
ответов

Преобразование HTML в простой текст и сохранение структуры / форматирования с помощью ruby ​​

Я бы хотел преобразовать HTML в простой текст. Я не хочу просто удалять теги, я хотел бы разумно сохранить как можно больше форматирования. Вставка разрывов строк для тегов
, ...
вопрос задан: 20 May 2011 14:39
0
ответов

Проблема с доступом к атрибутам в BeautifulSoup

У меня проблемы с использованием Python (2.7). Код в основном состоит из: str = ' ABC DEF ' z = BeautifulStoneSoup (str) для x в z.findAll ('el'): # ...
вопрос задан: 1 May 2011 12:45
0
ответов

BeautifulSoup findall с атрибутом класса - ошибка кодирования unicode

Я использую BeautifulSoup для извлечения новостей (только заголовков) из Hacker News, и до сих пор у меня это много - import urllib2 from BeautifulSoup import BeautifulSoup HN_url = "http: // news ....
вопрос задан: 21 April 2011 16:18
0
ответов

ImportError: Нет модуля с именем BeautifulSoup

Я установил BeautifulSoup с помощью easy_install и пытаюсь запустить следующий сценарий из BeautifulSoup import BeautifulSoup import re doc = [' Заголовок страницы </ ... </div> <div class="tags"> <a href="/questions/tagged/python" class="tag" title="python" rel="tag">python</a> <a href="/questions/tagged/beautifulsoup" class="tag" title="beautifulsoup" rel="tag">beautifulsoup</a> </div> <div class="action-time"> вопрос задан: <span title="14 April 2011 13:29 ">14 April 2011 13:29 </span> </div> </div> <div class="clearfix"></div> </div> <div class="item"> <div class="stats accepted"> <i class="fa fa-check"></i> <div class="answers"> <span class="answer-count">0</span> <div>ответов</div> </div> </div> <div class="summary"> <h2 class="lead"><a href="/questions/506697/python-ispolzujuschij-beautiful-soup-dlja-obrabotki-html-koda-opredelennogo-kontenta" title=" Python, использующий Beautiful Soup для обработки HTML-кода определенного контента "> Python, использующий Beautiful Soup для обработки HTML-кода определенного контента </a></h2> <div class="description"> Итак, когда я решил проанализировать контент с веб-сайта. Например, http://allrecipes.com/Recipe/Slow-Cooker-Pork-Chops-II/Detail.aspx. Я хочу преобразовать ингредиенты в текстовый файл. Ингредиенты ... </div> <div class="tags"> <a href="/questions/tagged/python" class="tag" title="python" rel="tag">python</a> <a href="/questions/tagged/html" class="tag" title="html" rel="tag">html</a> <a href="/questions/tagged/parsing" class="tag" title="parsing" rel="tag">parsing</a> <a href="/questions/tagged/beautifulsoup" class="tag" title="beautifulsoup" rel="tag">beautifulsoup</a> </div> <div class="action-time"> вопрос задан: <span title="11 April 2011 00:19 ">11 April 2011 00:19 </span> </div> </div> <div class="clearfix"></div> </div> <div class="item"> <div class="stats accepted"> <i class="fa fa-check"></i> <div class="answers"> <span class="answer-count">0</span> <div>ответов</div> </div> </div> <div class="summary"> <h2 class="lead"><a href="/questions/245086/can-i-remove-script-tags-with-beautifulsoup" title="Can I remove script tags with BeautifulSoup?">Can I remove script tags with BeautifulSoup?</a></h2> <div class="description">Can script tags and all of their contents be removed from HTML with BeautifulSoup, or do I have to use Regular Expressions or something else?</div> <div class="tags"> <a href="/questions/tagged/python" class="tag" title="python" rel="tag">python</a> <a href="/questions/tagged/html" class="tag" title="html" rel="tag">html</a> <a href="/questions/tagged/beautifulsoup" class="tag" title="beautifulsoup" rel="tag">beautifulsoup</a> </div> <div class="action-time"> вопрос задан: <span title="8 April 2011 17:41 ">8 April 2011 17:41 </span> </div> </div> <div class="clearfix"></div> </div> <div class="item"> <div class="stats accepted"> <i class="fa fa-check"></i> <div class="answers"> <span class="answer-count">0</span> <div>ответов</div> </div> </div> <div class="summary"> <h2 class="lead"><a href="/questions/493647/ispolzovanie-beautifulsoup-dlja-poiska-vseh-elementov-nachinajuschihsja-s-zadannoj-bukvy" title=" Использование BeautifulSoup для поиска всех элементов, начинающихся с заданной буквы "> Использование BeautifulSoup для поиска всех элементов, начинающихся с заданной буквы </a></h2> <div class="description"> Если я хочу найти все элементы <p> с id = test с помощью BeautifulSoup, я использую: для элемента в супе .findAll ('p', {"id": "test"}): Как мне найти каждый элемент с идентификатором, начинающимся с определенного ... </div> <div class="tags"> <a href="/questions/tagged/python" class="tag" title="python" rel="tag">python</a> <a href="/questions/tagged/beautifulsoup" class="tag" title="beautifulsoup" rel="tag">beautifulsoup</a> </div> <div class="action-time"> вопрос задан: <span title="27 March 2011 04:17 ">27 March 2011 04:17 </span> </div> </div> <div class="clearfix"></div> </div> <div class="item"> <div class="stats accepted"> <i class="fa fa-check"></i> <div class="answers"> <span class="answer-count">0</span> <div>ответов</div> </div> </div> <div class="summary"> <h2 class="lead"><a href="/questions/485301/perl-html-parsing-lib-tool" title=" perl html parsing lib / tool "> perl html parsing lib / tool </a></h2> <div class="description"> Есть ли какие-нибудь мощные инструменты / библиотеки для Perl, такие как BeautifulSoup to python? Спасибо </div> <div class="tags"> <a href="/questions/tagged/perl" class="tag" title="perl" rel="tag">perl</a> <a href="/questions/tagged/beautifulsoup" class="tag" title="beautifulsoup" rel="tag">beautifulsoup</a> </div> <div class="action-time"> вопрос задан: <span title="20 March 2011 06:09 ">20 March 2011 06:09 </span> </div> </div> <div class="clearfix"></div> </div> <div class="item"> <div class="stats accepted"> <i class="fa fa-check"></i> <div class="answers"> <span class="answer-count">0</span> <div>ответов</div> </div> </div> <div class="summary"> <h2 class="lead"><a href="/questions/504145/python-samyj-prostoj-sposob-ochistit-tekst-iz-spiska-url-adresov-s-pomoschju-beautifulsoup" title=" Python - самый простой способ очистить текст из списка URL-адресов с помощью BeautifulSoup "> Python - самый простой способ очистить текст из списка URL-адресов с помощью BeautifulSoup </a></h2> <div class="description"> Какой самый простой способ очистить только текст с нескольких веб-страниц (используя список URL-адресов) с помощью BeautifulSoup? Это вообще возможно? Лучший, Джорджина </div> <div class="tags"> <a href="/questions/tagged/python" class="tag" title="python" rel="tag">python</a> <a href="/questions/tagged/screen-scraping" class="tag" title="screen-scraping" rel="tag">screen-scraping</a> <a href="/questions/tagged/beautifulsoup" class="tag" title="beautifulsoup" rel="tag">beautifulsoup</a> <a href="/questions/tagged/web-scraping" class="tag" title="web-scraping" rel="tag">web-scraping</a> </div> <div class="action-time"> вопрос задан: <span title="16 March 2011 20:20 ">16 March 2011 20:20 </span> </div> </div> <div class="clearfix"></div> </div> <div class="item"> <div class="stats accepted"> <i class="fa fa-check"></i> <div class="answers"> <span class="answer-count">0</span> <div>ответов</div> </div> </div> <div class="summary"> <h2 class="lead"><a href="/questions/348197/kak-izmenit-imja-tega-s-pomoschju-beautifulsoup" title=" Как изменить имя тега с помощью BeautifulSoup? "> Как изменить имя тега с помощью BeautifulSoup? </a></h2> <div class="description"> Я использую python + BeautifulSoup для анализа HTML-документа. Теперь мне нужно заменить все элементы <h2 class = "someclass"> в документе HTML на <h1 class = "someclass">. Как я могу ... </div> <div class="tags"> <a href="/questions/tagged/python" class="tag" title="python" rel="tag">python</a> <a href="/questions/tagged/html-parsing" class="tag" title="html-parsing" rel="tag">html-parsing</a> <a href="/questions/tagged/beautifulsoup" class="tag" title="beautifulsoup" rel="tag">beautifulsoup</a> </div> <div class="action-time"> вопрос задан: <span title="13 March 2011 15:33 ">13 March 2011 15:33 </span> </div> </div> <div class="clearfix"></div> </div> <div class="item"> <div class="stats accepted"> <i class="fa fa-check"></i> <div class="answers"> <span class="answer-count">0</span> <div>ответов</div> </div> </div> <div class="summary"> <h2 class="lead"><a href="/questions/89905/ispolzovanie-beautifulsoup-dlja-izvlechenija-teksta-mezhdu-perenosami-strok-naprimer-tegi-lt-br-gt" title="Использование Beautifulsoup для извлечения текста между переносами строк (например, теги &lt; br / &gt;)">Использование Beautifulsoup для извлечения текста между переносами строк (например, теги < br / >)</a></h2> <div class="description">У меня есть следующий HTML-код, который находится внутри большого документа < br / > Важный текст 1 < br / > < br / > Не важный текст < br / > Важный текст 2 < br / > Важный текст 3 < ...</div> <div class="tags"> <a href="/questions/tagged/beautifulsoup" class="tag" title="beautifulsoup" rel="tag">beautifulsoup</a> <a href="/questions/tagged/html-parsing" class="tag" title="html-parsing" rel="tag">html-parsing</a> <a href="/questions/tagged/html" class="tag" title="html" rel="tag">html</a> <a href="/questions/tagged/python" class="tag" title="python" rel="tag">python</a> </div> <div class="action-time"> вопрос задан: <span title="11 March 2011 16:12 ">11 March 2011 16:12 </span> </div> </div> <div class="clearfix"></div> </div> <div class="item"> <div class="stats accepted"> <i class="fa fa-check"></i> <div class="answers"> <span class="answer-count">0</span> <div>ответов</div> </div> </div> <div class="summary"> <h2 class="lead"><a href="/questions/392169/beautifulsoup-najti-tekst-s-reguljarnym-vyrazheniem-i-bez-nego" title=" ] beautifulsoup найти текст с регулярным выражением и без него "> ] beautifulsoup найти текст с регулярным выражением и без него </a></h2> <div class="description"> html: <td> некоторый ключ </td> поиск без регулярного выражения: soup.find (text = 'some key') вернул None find with regex soup.find (text = re.compile ('some key')) вернул узел td. Кто-нибудь ... </div> <div class="tags"> <a href="/questions/tagged/beautifulsoup" class="tag" title="beautifulsoup" rel="tag">beautifulsoup</a> </div> <div class="action-time"> вопрос задан: <span title="25 February 2011 06:15 ">25 February 2011 06:15 </span> </div> </div> <div class="clearfix"></div> </div> <div class="item"> <div class="stats accepted"> <i class="fa fa-check"></i> <div class="answers"> <span class="answer-count">0</span> <div>ответов</div> </div> </div> <div class="summary"> <h2 class="lead"><a href="/questions/257973/only-extracting-text-from-this-element-not-its-children" title="Only extracting text from this element, not its children">Only extracting text from this element, not its children</a></h2> <div class="description">I want to extract only the text from the top-most element of my soup; however soup.text gives the text of all the child elements as well: I have import BeautifulSoup soup = BeautifulSoup.BeautifulSoup (... </div> <div class="tags"> <a href="/questions/tagged/python" class="tag" title="python" rel="tag">python</a> <a href="/questions/tagged/parsing" class="tag" title="parsing" rel="tag">parsing</a> <a href="/questions/tagged/text" class="tag" title="text" rel="tag">text</a> <a href="/questions/tagged/beautifulsoup" class="tag" title="beautifulsoup" rel="tag">beautifulsoup</a> </div> <div class="action-time"> вопрос задан: <span title="14 February 2011 09:05 ">14 February 2011 09:05 </span> </div> </div> <div class="clearfix"></div> </div> </div> <div class="main-footer"> <div class="pagination"> <div class="pagination"> <ul><li class="pagination__item"><a href="/questions/tagged/beautifulsoup" class="pagination__link">1</a></li><li class="pagination__item"><a href="/questions/tagged/beautifulsoup/page2" class="pagination__link">2</a></li><li class="pagination__item"><a href="/questions/tagged/beautifulsoup/page3" class="pagination__link">3</a></li><li class="pagination__item"><a href="/questions/tagged/beautifulsoup/page4" class="pagination__link">4</a></li><li class="pagination__item"><a href="/questions/tagged/beautifulsoup/page5" class="pagination__link">5</a></li><li class="pagination__item"><a href="/questions/tagged/beautifulsoup/page6" class="pagination__link">6</a></li><li class="pagination__item"><a href="/questions/tagged/beautifulsoup/page7" class="pagination__link">7</a></li><li class="pagination__item"><a href="/questions/tagged/beautifulsoup/page8" class="pagination__link">8</a></li><li class="pagination__item"><a href="/questions/tagged/beautifulsoup/page9" class="pagination__link">9</a></li><li class="pagination__item"><a href="/questions/tagged/beautifulsoup/page10" class="pagination__link pagination__link--active">10</a></li><li class="pagination__item"><a href="/questions/tagged/beautifulsoup/page11" class="pagination__link">11</a></li></ul> </div> </div> </div> </div> </div> <aside class="sidebar"> <div class="awrap"> <script async src="https://yastatic.net/pcode-native/loaders/loader.js"></script> <script> (yaads = window.yaads || []).push({ id: "553274-2", render: "#id-553274-2" }); </script> <div id="id-553274-2"></div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:inline-block;width:300px;height:600px" data-ad-client="ca-pub-2355906945027976" data-ad-slot="8038370725"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </aside> </div> </div> <footer class="footer"> <div class="wrapper wrapper--sm"> <div class="footer-navs-col"> <div class="footer-nav footer-nav--menu"> <div class="footer-coryright">© 2017 - 2020 Вопросы и ответы по программированию</div> </div> <div class="footer-nav footer-nav--catalog"> </div> </div> <div class="footer-contacts-col"> <div class="soc-widget-col"> </div> </div> <div class="clearfix"></div> </div> </footer> </div> <script type="text/javascript" src="/js/ui/jquery-ui-1.8.16.custom.min.js"></script> <script type="text/javascript" src="/js/ui/external/jquery.cookie.js"></script> <script type="text/javascript" src="/js/versions/menu.ru.u1607887878.js"></script> <script type="text/javascript" src="/js/jquery.fancybox.min.js"></script> <script type="text/javascript" src="/js/slick.min.js"></script> <script type="text/javascript" src="/js/jquery.maskedinput.min.js"></script> <script type="text/javascript" src="/js/versions/scripts.ru.u1607887878.js"></script> <!-- Yandex.Metrika counter --> <script type="text/javascript" > (function(m,e,t,r,i,k,a){m[i]=m[i]||function(){(m[i].a=m[i].a||[]).push(arguments)}; var z = null;m[i].l=1*new Date(); for (var j = 0; j < document.scripts.length; j++) {if (document.scripts[j].src === r) { return; }} k=e.createElement(t),a=e.getElementsByTagName(t)[0],k.async=1,k.src=r,a.parentNode.insertBefore(k,a)}) (window, document, "script", "https://mc.yandex.ru/metrika/tag.js", "ym"); ym(90030325, "init", { clickmap:true, trackLinks:true, accurateTrackBounce:true, webvisor:true }); </script> <noscript><div><img src="https://mc.yandex.ru/watch/90030325" style="position:absolute; left:-9999px;" alt="" /></div></noscript> <!-- /Yandex.Metrika counter --> <!-- Global site tag (gtag.js) - Google Analytics --> <script async src="https://www.googletagmanager.com/gtag/js?id=UA-123993370-1"></script> <script> window.dataLayer = window.dataLayer || []; function gtag(){dataLayer.push(arguments);} gtag('js', new Date()); gtag('config', 'UA-123993370-1'); </script> </div> <script type="application/ld+json"> { "@context": "https://schema.org", "@type": "WebSite", "name": "Программирование - вопросы и ответы", "alternateName": "Программирование - вопросы и ответы", "url": "https://legkovopros.ru", "potentialAction": { "@type": "SearchAction", "target": "https://legkovopros.ru/search?search={search_term_string}", "query-input": "required name=search_term_string" } } { "@context": "https://schema.org", "@type": "Organization", "name": "Программирование - вопросы и ответы", "url": "https://legkovopros.ru", "logo": "https://legkovopros.ru/i/logo.png", "email": "info@legkovopros.ru", "telephone": "" } </script> </body> </html>