0
ответов

Как очищать логотипы с веб-сайтов?

Во-первых, это не вопрос о том, как очищать веб-сайты. Я полностью осведомлен о доступных мне инструментах для очистки (css_parser, nokogiri и т. Д. Я использую Ruby для очистки). Это больше о ...
вопрос задан: 9 April 2011 20:34
0
ответов

Как читать HTML как XML?

Я хочу извлечь пару ссылок с html-страницы, загруженной из Интернета, я думаю, что использование linq to XML было бы хорошим решением для моего случая. Моя проблема в том, что я не могу создать ...
вопрос задан: 29 March 2011 12:03
0
ответов

xpath find node, который не содержит дочерних элементов

Я пытаясь создать некоторый xpath, который найдет все теги, не содержащие тегов img, так что что-то вроде link соответствует, но
вопрос задан: 28 March 2011 19:48
0
ответов

Разбор ошибок пакета гибкости HTMl и возврат XElement

Я могу проанализировать документ и сгенерировать вывод, однако вывод не может быть проанализирован в XElement из-за тега ap, все остальное в строке анализируется правильно. Мой ввод: var input = "...
вопрос задан: 17 March 2011 16:32
0
ответов

Преобразовать html в обычный текст в VBA

У меня есть лист Excel с ячейками, содержащими html. Как я могу конвертировать их в обычный текст? На данный момент так много бесполезных тегов и стилей. Я хочу написать это с нуля, но это будет далеко ...
вопрос задан: 16 March 2011 15:23
0
ответов

Как изменить имя тега с помощью BeautifulSoup?

Я использую python + BeautifulSoup для анализа HTML-документа. Теперь мне нужно заменить все элементы

в документе HTML на

. Как я могу ...

вопрос задан: 13 March 2011 15:33
0
ответов

Использование Beautifulsoup для извлечения текста между переносами строк (например, теги < br / >)

У меня есть следующий HTML-код, который находится внутри большого документа < br / > Важный текст 1 < br / > < br / > Не важный текст < br / > Важный текст 2 < br / > Важный текст 3 < ...
вопрос задан: 11 March 2011 16:12
0
ответов

python UnicodeEncodeError> Как я могу просто удалить вызывающие беспокойство символы Unicode?

Вот что я сделал .. >> > soup = BeautifulSoup (HTML) >>> суп Traceback (последний вызов последним): файл "", строка 1, в UnicodeEncodeError: кодек 'ascii' ...
вопрос задан: 8 March 2011 18:04
0
ответов

TagSoup против Jsoup против парсера HTML против HotSax против [закрыто]

Обилие парсеров HTML на выбор (и использование которых) просто ошеломляет: http://java-source.net/open-source/html-parsers Как выбрать тот, который лучше всего соответствует следующим требованиям: ...
вопрос задан: 3 March 2011 16:45
0
ответов

HtmlAgility - Сохранить синтаксический анализ в строку

Просто попробовал использовать пакет HtmlAgility в первый раз и возникла проблема. Сначала я загружаюсь из строковой переменной. строка NewsText = dr ["Сообщение"]. ToString (); HtmlAgilityPack.HtmlDocument htmlDoc = ...
вопрос задан: 24 February 2011 16:15
0
ответов

E4X с NodeJS

Есть ли способ получить E4X (ECMAScript ) работать с NodeJS? Это действительно помогло бы выводить гладкий html / xml без хлопот и шума. Он отлично работает с SpiderMonkey, так как он изначально реализован, ...
вопрос задан: 20 February 2011 13:44
0
ответов

How do I parse HTML email using PHP IMAP?

I'm trying to parse HTML data in an email using PHP's IMAP functions. When I echo imap_body($Mailbox, 1); by example, the HTMl contained inside seems to be converted into a different encoding (MIME I ...
вопрос задан: 15 February 2011 21:59
0
ответов

Самый быстрый, простой и лучший способ разобрать таблицу HTML?

Я пытаюсь понять это table http://www.datamystic.com/timezone/time_zones.html в формат массива, чтобы я мог делать с ним все, что захочу. Желательно на PHP, Python или JavaScript. Это своего рода ...
вопрос задан: 4 February 2011 00:52
0
ответов

Использование python для редактирования html, но lxml преобразует красивые объекты html в странную кодировку

Я пытаюсь использовать python (с pyquery и lxml) для изменения и очистки некоторого HTML. Например. html = "
<-->

Это & # 146; sa ...

вопрос задан: 2 February 2011 17:00
0
ответов

Javascript: Проверить, содержит ли страница конкретный div

Как проверить с помощью javascript, содержит ли страница, на которой я нахожусь, конкретный div ... например, черепахи
вопрос задан: 1 February 2011 09:45
0
ответов

Как получить img / src или a / hrefs с помощью Html Agility Pack?

Я хочу использовать пакет гибкости HTML для синтаксического анализа ссылок на изображения и href со страницы HTML, но я просто не очень разбираюсь в XML или XPath. Хотя, просматривая справочные документы на многих веб-сайтах, я просто не могу ...
вопрос задан: 29 January 2011 08:48
0
ответов

Python HTMLParser: UnicodeDecodeError

Я использую HTMLParser для анализа страниц, которые я просматриваю с помощью urllib, и при передаче некоторых из них в HTMLParser сталкиваюсь с исключениями UnicodeDecodeError. Я пробовал использовать chardet для обнаружения кодировок и ...
вопрос задан: 25 January 2011 05:08
0
ответов

Django: создание пользовательского автоинкремента PK?

Я использовал пользовательские первичные ключи для модели в Django. (Это произошло потому, что я импортировал значения в базу данных, и к ним уже были прикреплены идентификаторы, и имело смысл сохранить существующие ...
вопрос задан: 6 January 2011 16:53
0
ответов

Как определить, какие элементы видны в переполненном

По сути, я пытаюсь реализовать систему, которая ведет себя аналогично панели чтения, встроенной в Интерфейс Google Reader. Если вы этого не видели, Google Reader представляет каждую статью в виде ...
вопрос задан: 4 January 2011 23:49
0
ответов

Разбор HTML в perl

Я пытаюсь разобрать следующую структуру HTML с помощью perl. Мне нужно выбрать все элементы dd, содержащие сообщение класса, а также идентификатор. Все, что я хотел бы, чтобы сценарий выполнял цикл ...
вопрос задан: 4 January 2011 20:36
0
ответов

libxml2 не может правильно обрабатывать CDATA в HTML

I ' m с помощью libxml2.2.7.3 для синтаксического анализа html-страниц, и мне трудно заставить его правильно работать с CDATA в HTML. Вот код: xmlDocPtr doc = htmlReadMemory (data, length, "", NULL, 0); ...
вопрос задан: 26 December 2010 17:35
0
ответов

Анализировать веб-сайт на предмет URL-адресов

Просто интересно, может ли кто-нибудь помочь мне со следующим. Я хочу проанализировать URL на этом веб-сайте: http: //www.directorycritic.com/free-directory-list.html? Pg = 1 & sort = pr У меня есть следующее ...
вопрос задан: 16 December 2010 13:42
0
ответов

Как проверить HTML из Java?

Каков быстрый и простой способ проверки HTML из Java? Я ищу класс с открытым исходным кодом / PD (или набор классов), который описывает различные свойства 100 с лишним HTML-тегов, например: Является ли ...
вопрос задан: 8 December 2010 21:32
0
ответов

Ищу PHP-скрипт, который может очистить плохой HTML.

Я сейчас пишу скрипт командной строки PHP для преобразования сотен HTML-фрагменты в Markdown с помощью библиотеки Markdownify. Однако я столкнулся с ситуацией, когда часть моего HTML ...
вопрос задан: 8 December 2010 19:10
0
ответов

F # синтаксический анализ html

Какие еще параметры существуют в настоящее время для синтаксического анализа html в F #? В настоящее время есть несколько регулярных выражений, но я бы предпочел что-то вроде Pythons Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ ...
вопрос задан: 4 November 2010 10:05
0
ответов

Очистка веб-страниц, очистка экрана, советы по интеллектуальному анализу данных? [закрыто]

Я работаю над проектом, и мне нужно сделать много очистки экрана, чтобы получить как можно больше данных. Мне интересно, знает ли кто-нибудь о хороших API или ресурсах, которые могут мне помочь. Я использую ...
вопрос задан: 2 November 2010 16:24
0
ответов

удалить теги комментариев HTML с помощью регулярного выражения

Вот как мой текст ( html) выглядит как
вопрос задан: 29 October 2010 20:59
0
ответов

Как вернуть необработанный XML из lxml?

Я использую следующий код для поиска div: parser = etree.HTMLParser () tree = etree.parse (StringIO (page), parser) div = tree.xpath ("// div [@ class = 'content']") [0] Моя единственная проблема в том, что после ...
вопрос задан: 24 October 2010 00:10
0
ответов

Как значимый текст извлечения от HTML

Я хотел бы проанализировать страницу HTML и извлечь значимый текст из него. Кто-либо знает, что некоторые хорошие алгоритмы делают это? Я разрабатываю свои приложения на направляющих, но я думаю, что рубин является немного медленным в этом...
вопрос задан: 19 October 2010 14:50
0
ответов

Найдите теги h3 и h4 под ним

Это мой HTML :

тест 1

мля

подзаголовок 1

мля

подзаголовок 2

тест 2

...

вопрос задан: 1 October 2010 14:31