29
ответов

Варианты соскоба HTML? [закрыто]

Я подумываю попробовать Beautiful Soup, пакет Python для очистки HTML. Есть ли какие-либо другие пакеты для очистки HTML, на которые мне стоит обратить внимание? Python не является обязательным требованием, я на самом деле заинтересован в ...
вопрос задан: 31 August 2018 22:28
13
ответов

Что лучший способ состоит в том, чтобы проанализировать HTML в C#? [закрытый]

Я ищу библиотеку/метод для парсинга файла HTML с большим количеством HTML определенные функции, чем универсальный xml парсинг библиотек.
вопрос задан: 3 January 2010 08:29
10
ответов

“Умный” способ проанализировать и использовать данные веб-сайта?

Как каждый разумно анализирует данные, возвращенные результатами поиска на странице? Например, позволяет, говорят, что я хотел бы создать веб-сервис, который ищет книги онлайн путем парсинга поиска...
вопрос задан: 3 January 2010 06:50
9
ответов

Как экранные скребки работают? [закрытый]

Я слышу, что люди пишут эти программы все время, и я знаю то, что они делают, но как они на самом деле делают это? Я ищу общие понятия.
вопрос задан: 10 November 2010 09:42
8
ответов

C# - Лучший подход к парсингу веб-страницы?

Я сохранил HTML всей веб-страницы к строке, и теперь я хочу захватить значения "href" из ссылок, предпочтительно со способностью сохранить их к различным строкам позже. Что состоит в том, чтобы сделать лучший способ...
вопрос задан: 3 January 2010 06:52
8
ответов

регулярное выражение для извлечения текста из HTML

Я хотел бы извлечь из общей страницы HTML, весь текст (отображенный или не). Я хотел бы удалить любые HTML-тэги Любой JavaScript, который разрабатывает Любой CSS, там регулярное выражение (один или несколько)...
вопрос задан: 2 January 2010 21:01
7
ответов

Что лучший способ состоит в том, чтобы записать удобному в сопровождении веб-приложению очистки?

Я записал сценарий жемчуга только что, который вошел в мой онлайн - банкинг и посылал мне по электронной почте мой баланс и мини-оператор каждый день. Я нашел это очень полезным для того, чтобы отслеживать мои финансы. Единственное...
вопрос задан: 28 December 2009 16:34
6
ответов

Извлечение текста от Java HTML

Я работаю над программой, которая загружает страницы HTML и затем выбирает часть информации, и запишите это в другой файл. Я хочу извлечь информацию, которая является intbetween теги абзаца, но...
вопрос задан: 12 March 2013 15:05
6
ответов

Как Вы анализируете плохо отформатированный файл HTML?

Я должен проанализировать серию веб-страниц для импорта данных в приложение. Каждый тип веб-страницы обеспечивает тот же вид данных. Проблема состоит в том, что HTML каждой страницы отличается, таким образом...
вопрос задан: 3 January 2010 12:28
6
ответов

парсинг HTML на [закрытом] iPhone

Кто-либо может рекомендовать библиотеку C или Objective-C для парсинга HTML? Это должно обработать грязный HTML-код, который не вполне проверит. Делает такую библиотеку, существуют, или я более обеспеченный просто попытка использовать...
вопрос задан: 3 January 2010 06:49
5
ответов

Часть извлечения соответствия regex

Я хочу, чтобы регулярное выражение извлекло заголовок из страницы HTML. В настоящее время у меня есть это: заголовок = re.search (' <заголовок>.* </title>', HTML, ре. IGNORECASE) .group (), если заголовок: заголовок = заголовок....
вопрос задан: 27 July 2018 10:07
5
ответов

Как извлечь img src, title и alt из html с помощью php? [Дубликат]

Я хотел бы создать страницу, где все изображения, которые находятся на моем сайте, перечислены с заголовком и альтернативным представлением. Я уже написал мне небольшую программу, чтобы найти и загрузить все файлы HTML, ...
вопрос задан: 27 May 2015 12:59
4
ответа

Есть ли что-нибудь для Python, который похож на readability.js?

Я ищу пакет / модуль / функция и т.д., которая является приблизительно Python, эквивалентным из readability.js http://lab.arc90.com/experiments/readability Arc90 http://lab.arc90.com/experiments/...
вопрос задан: 27 May 2010 13:02
4
ответа

Что алгоритмы могли я использовать для идентификации содержания на веб-странице

Мне загрузили веб-страницу в браузере (т.е. его DOM и расположение элемента оба доступны для меня), и я хочу найти элемент блока (или отсортированный список этих элементов), который, вероятно...
вопрос задан: 7 January 2010 01:25
4
ответа

Как вы анализируете HTML в vb.net

Я хотел бы знать, если есть простой способ для анализа HTML в vb.net. Я знаю, что HTML не является строгим подмножеством XML, но было бы неплохо, если бы его можно было так трактовать. Там что-нибудь есть ...
вопрос задан: 3 January 2010 06:51
3
ответа

Извлечение текста из файла HTML с помощью Python

Я хотел бы извлечь текст из файла HTML с помощью Python. Я хочу по существу тот же вывод, который я получил бы, если бы я скопировал текст с браузера и вставил его в блокнот. Я хотел бы что-то больше...
вопрос задан: 23 May 2017 00:31
3
ответа

Как я сохраняю веб-страницу, программно?

Я хотел бы сохранить веб-страницу программно. Я не имею в виду, просто сохраняют HTML. Я также хотел бы автоматически хранить все связанные файлы (изображения, файлы CSS, возможно, встроенный SWF, и т.д.), и...
вопрос задан: 23 January 2013 22:20
3
ответа

Получите представленный текст от HTML (Delphi)

У меня есть некоторый HTML, и я должен извлечь фактический записанный текст из страницы. До сих пор я попытался использовать веб-браузер и представить страницу, затем идя в свойство документа и захватив...
вопрос задан: 8 June 2010 21:49
3
ответа

Что делают библиотеки парсинга HTML Вы рекомендуете в [закрытом] Java

Я хочу проанализировать некоторый HTML для нахождения значений некоторых атрибутов/тегов и т.д., Какие синтаксические анализаторы HTML Вы рекомендуете? Какие-либо за и против?
вопрос задан: 3 January 2010 08:29
3
ответа

Стратегия Python извлечения текста от уродливых страниц HTML

Я пытаюсь извлечь текст из произвольных страниц HTML. Некоторые страницы (который я не имею никакого контроля) имеют уродливый HTML или сценарии, которые делают это трудным. Также я нахожусь на общем хостинге...
вопрос задан: 2 January 2010 21:04
3
ответа

Как я могу считать и проанализировать содержание веб-страницы в R

Я хотел бы считать содержание URL (e.q., http://www.haaretz.com/) в R. Я задаюсь вопросом, как я могу сделать это
вопрос задан: 28 December 2009 16:25
2
ответа

Каково состояние в извлечении содержимого HTML?

Существует много научной работы на извлечении содержимого HTML, например, Gupta & Kaiser (2005) Контент Извлечения от Доступных Веб-страниц и некоторые знаки интереса здесь, например, один, два, и три...
вопрос задан: 23 May 2017 12:01
2
ответа

Захват BeautifulSoup видимый текст веб-страницы

В основном я хочу использовать BeautifulSoup для захвата строго видимого текста на веб-странице. Например, эта веб-страница является моим тестовым сценарием. И я главным образом хочу просто получить основной текст (статья) и возможно ровный...
вопрос задан: 23 May 2017 10:31
2
ответа

Создайте большой синтаксический анализатор - извлекают соответствующий текст из HTML/блогов

Я пытаюсь создать обобщенный синтаксический анализатор HTML, который работает хорошо над Сообщениями в блоге. Я хочу указать на свой синтаксический анализатор на URL определенного entrie и возвратить чистый текст самого сообщения. Мой основной подход (от.
вопрос задан: 2 January 2010 20:14
2
ответа

BeautifulSoup - простой способ к получить содержание без HTML

Я использую этот код для нахождения всех интересных ссылок на странице: soup.findAll (href=re.compile ('^notizia.php \? idn =\d + ')), И это делает свое задание вполне прилично. К сожалению, в этом тег там...
вопрос задан: 28 December 2009 16:02
1
ответ

Используя BeautifulSoup для нахождения HTML-тэга, который содержит определенный текст

Я пытаюсь получить элементы в документе HTML, которые содержат следующий шаблон текста: #\\S {11} <h2>, это - прохладный № 12345678901 </h2> Так, предыдущее, соответствовал бы при помощи: суп ('h2'...
вопрос задан: 28 December 2009 16:13
0
ответов

Есть ли способ использовать удобочитаемость и python для извлечения только текста, а не HTML?

Мне нужно извлечь чистый текст из случайной веб-страницы во время выполнения на стороне сервера. Я использую Google App Engine и порт Python Readability. Есть несколько таких. ранняя версия от gfxmonk, основанная на...
вопрос задан: 23 May 2017 11:55
0
ответов

Извлечение содержимого статьи HTML - альтернатива Alchemy API

I ' Мы провели много исследований, чтобы найти лучший способ кодирования приложения, чтобы получить основное содержание статьи практически с любой веб-страницы HTML. У меня есть программа на языке C, которая использует libxml2 для анализа ...
вопрос задан: 11 December 2013 10:50
0
ответов

Есть ли порт котла для .net?

Кто-нибудь знает порт .net для библиотеки котел?
вопрос задан: 25 October 2012 21:33
0
ответов

Как интегрировать HTML-страницы в WordPress?

У меня есть страница в HTML (index.html) и папки с именами images, css, js, которые используются в ней. Теперь я должен сделать это в WordPress. Есть ли какой-нибудь плагин для преобразования Html в WordPress или любой другой способ сделать ...
вопрос задан: 15 June 2012 03:02