Я подумываю попробовать Beautiful Soup, пакет Python для очистки HTML. Есть ли какие-либо другие пакеты для очистки HTML, на которые мне стоит обратить внимание? Python не является обязательным требованием, я на самом деле заинтересован в ...
Как каждый разумно анализирует данные, возвращенные результатами поиска на странице? Например, позволяет, говорят, что я хотел бы создать веб-сервис, который ищет книги онлайн путем парсинга поиска...
Я сохранил HTML всей веб-страницы к строке, и теперь я хочу захватить значения "href" из ссылок, предпочтительно со способностью сохранить их к различным строкам позже. Что состоит в том, чтобы сделать лучший способ...
Я хотел бы извлечь из общей страницы HTML, весь текст (отображенный или не). Я хотел бы удалить любые HTML-тэги Любой JavaScript, который разрабатывает Любой CSS, там регулярное выражение (один или несколько)...
Я записал сценарий жемчуга только что, который вошел в мой онлайн - банкинг и посылал мне по электронной почте мой баланс и мини-оператор каждый день. Я нашел это очень полезным для того, чтобы отслеживать мои финансы. Единственное...
Я работаю над программой, которая загружает страницы HTML и затем выбирает часть информации, и запишите это в другой файл. Я хочу извлечь информацию, которая является intbetween теги абзаца, но...
Я должен проанализировать серию веб-страниц для импорта данных в приложение. Каждый тип веб-страницы обеспечивает тот же вид данных. Проблема состоит в том, что HTML каждой страницы отличается, таким образом...
Кто-либо может рекомендовать библиотеку C или Objective-C для парсинга HTML? Это должно обработать грязный HTML-код, который не вполне проверит. Делает такую библиотеку, существуют, или я более обеспеченный просто попытка использовать...
Я хочу, чтобы регулярное выражение извлекло заголовок из страницы HTML. В настоящее время у меня есть это: заголовок = re.search (' <заголовок>.* </title>', HTML, ре. IGNORECASE) .group (), если заголовок: заголовок = заголовок....
Я хотел бы создать страницу, где все изображения, которые находятся на моем сайте, перечислены с заголовком и альтернативным представлением. Я уже написал мне небольшую программу, чтобы найти и загрузить все файлы HTML, ...
Я ищу пакет / модуль / функция и т.д., которая является приблизительно Python, эквивалентным из readability.js http://lab.arc90.com/experiments/readability Arc90 http://lab.arc90.com/experiments/...
Мне загрузили веб-страницу в браузере (т.е. его DOM и расположение элемента оба доступны для меня), и я хочу найти элемент блока (или отсортированный список этих элементов), который, вероятно...
Я хотел бы знать, если есть простой способ для анализа HTML в vb.net. Я знаю, что HTML не является строгим подмножеством XML, но было бы неплохо, если бы его можно было так трактовать. Там что-нибудь есть ...
Я хотел бы извлечь текст из файла HTML с помощью Python. Я хочу по существу тот же вывод, который я получил бы, если бы я скопировал текст с браузера и вставил его в блокнот. Я хотел бы что-то больше...
Я хотел бы сохранить веб-страницу программно. Я не имею в виду, просто сохраняют HTML. Я также хотел бы автоматически хранить все связанные файлы (изображения, файлы CSS, возможно, встроенный SWF, и т.д.), и...
У меня есть некоторый HTML, и я должен извлечь фактический записанный текст из страницы. До сих пор я попытался использовать веб-браузер и представить страницу, затем идя в свойство документа и захватив...
Я хочу проанализировать некоторый HTML для нахождения значений некоторых атрибутов/тегов и т.д., Какие синтаксические анализаторы HTML Вы рекомендуете? Какие-либо за и против?
Я пытаюсь извлечь текст из произвольных страниц HTML. Некоторые страницы (который я не имею никакого контроля) имеют уродливый HTML или сценарии, которые делают это трудным. Также я нахожусь на общем хостинге...
Существует много научной работы на извлечении содержимого HTML, например, Gupta & Kaiser (2005) Контент Извлечения от Доступных Веб-страниц и некоторые знаки интереса здесь, например, один, два, и три...
В основном я хочу использовать BeautifulSoup для захвата строго видимого текста на веб-странице. Например, эта веб-страница является моим тестовым сценарием. И я главным образом хочу просто получить основной текст (статья) и возможно ровный...
Я пытаюсь создать обобщенный синтаксический анализатор HTML, который работает хорошо над Сообщениями в блоге. Я хочу указать на свой синтаксический анализатор на URL определенного entrie и возвратить чистый текст самого сообщения. Мой основной подход (от.
Я использую этот код для нахождения всех интересных ссылок на странице: soup.findAll (href=re.compile ('^notizia.php \? idn =\d + ')), И это делает свое задание вполне прилично. К сожалению, в этом тег там...
Я пытаюсь получить элементы в документе HTML, которые содержат следующий шаблон текста: #\\S {11} <h2>, это - прохладный № 12345678901 </h2> Так, предыдущее, соответствовал бы при помощи: суп ('h2'...
Мне нужно извлечь чистый текст из случайной веб-страницы во время выполнения на стороне сервера. Я использую Google App Engine и порт Python Readability. Есть несколько таких. ранняя версия от gfxmonk, основанная на...
I ' Мы провели много исследований, чтобы найти лучший способ кодирования приложения, чтобы получить основное содержание статьи практически с любой веб-страницы HTML. У меня есть программа на языке C, которая использует libxml2 для анализа ...
У меня есть страница в HTML (index.html) и папки с именами images, css, js, которые используются в ней. Теперь я должен сделать это в WordPress. Есть ли какой-нибудь плагин для преобразования Html в WordPress или любой другой способ сделать ...