ответов

Как очищать логотипы с веб-сайтов?

Во-первых, это не вопрос о том, как очищать веб-сайты. Я полностью осведомлен о доступных мне инструментах для очистки (css_parser, nokogiri и т. Д. Я использую Ruby для очистки). Это больше о ...

screen-scraping html-parsing

вопрос задан: 9 April 2011 20:34

0

ответов

Как читать HTML как XML?

Я хочу извлечь пару ссылок с html-страницы, загруженной из Интернета, я думаю, что использование linq to XML было бы хорошим решением для моего случая. Моя проблема в том, что я не могу создать ...

c# html xml html-parsing

вопрос задан: 29 March 2011 12:03

0

ответов

xpath find node, который не содержит дочерних элементов

Я пытаясь создать некоторый xpath, который найдет все теги, не содержащие тегов img, так что что-то вроде link соответствует, но xpath html-parsing xml-parsing

вопрос задан: 28 March 2011 19:48

0

ответов

Разбор ошибок пакета гибкости HTMl и возврат XElement

Я могу проанализировать документ и сгенерировать вывод, однако вывод не может быть проанализирован в XElement из-за тега ap, все остальное в строке анализируется правильно. Мой ввод: var input = "...

c# .net-3.5 html-parsing html-agility-pack

вопрос задан: 17 March 2011 16:32

0

ответов

Преобразовать html в обычный текст в VBA

У меня есть лист Excel с ячейками, содержащими html. Как я могу конвертировать их в обычный текст? На данный момент так много бесполезных тегов и стилей. Я хочу написать это с нуля, но это будет далеко ...

html parsing vba html-parsing

вопрос задан: 16 March 2011 15:23

0

ответов

Как изменить имя тега с помощью BeautifulSoup?

Я использую python + BeautifulSoup для анализа HTML-документа. Теперь мне нужно заменить все элементы

в документе HTML на

. Как я могу ...

python html-parsing beautifulsoup

вопрос задан: 13 March 2011 15:33

0

ответов

Использование Beautifulsoup для извлечения текста между переносами строк (например, теги )

У меня есть следующий HTML-код, который находится внутри большого документа Важный текст 1 Не важный текст Важный текст 2 Важный текст 3 < ...

beautifulsoup html-parsing html python

вопрос задан: 11 March 2011 16:12

0

ответов

python UnicodeEncodeError> Как я могу просто удалить вызывающие беспокойство символы Unicode?

Вот что я сделал .. >> > soup = BeautifulSoup (HTML) >>> суп Traceback (последний вызов последним): файл "", строка 1, в UnicodeEncodeError: кодек 'ascii' ...

python parsing unicode html-parsing

вопрос задан: 8 March 2011 18:04

0

ответов

TagSoup против Jsoup против парсера HTML против HotSax против [закрыто]

Обилие парсеров HTML на выбор (и использование которых) просто ошеломляет: http://java-source.net/open-source/html-parsers Как выбрать тот, который лучше всего соответствует следующим требованиям: ...

java android html-parsing

вопрос задан: 3 March 2011 16:45

0

ответов

HtmlAgility - Сохранить синтаксический анализ в строку

Просто попробовал использовать пакет HtmlAgility в первый раз и возникла проблема. Сначала я загружаюсь из строковой переменной. строка NewsText = dr ["Сообщение"]. ToString (); HtmlAgilityPack.HtmlDocument htmlDoc = ...

c# parsing html-parsing

вопрос задан: 24 February 2011 16:15

0

ответов

E4X с NodeJS

Есть ли способ получить E4X (ECMAScript ) работать с NodeJS? Это действительно помогло бы выводить гладкий html / xml без хлопот и шума. Он отлично работает с SpiderMonkey, так как он изначально реализован, ...

javascript node.js html-parsing e4x spidermonkey

вопрос задан: 20 February 2011 13:44

0

ответов

How do I parse HTML email using PHP IMAP?

I'm trying to parse HTML data in an email using PHP's IMAP functions. When I echo imap_body($Mailbox, 1); by example, the HTMl contained inside seems to be converted into a different encoding (MIME I ...

php html-parsing imap

вопрос задан: 15 February 2011 21:59

0

ответов

Самый быстрый, простой и лучший способ разобрать таблицу HTML?

Я пытаюсь понять это table http://www.datamystic.com/timezone/time_zones.html в формат массива, чтобы я мог делать с ним все, что захочу. Желательно на PHP, Python или JavaScript. Это своего рода ...

python regex html-parsing beautifulsoup

вопрос задан: 4 February 2011 00:52

0

ответов

Использование python для редактирования html, но lxml преобразует красивые объекты html в странную кодировку

Я пытаюсь использовать python (с pyquery и lxml) для изменения и очистки некоторого HTML. Например. html = "

<-->

Это & # 146; sa ...

python character-encoding html-parsing lxml

вопрос задан: 2 February 2011 17:00

0

ответов

Javascript: Проверить, содержит ли страница конкретный div

Как проверить с помощью javascript, содержит ли страница, на которой я нахожусь, конкретный div ... например, черепахи

javascript html html-parsing

вопрос задан: 1 February 2011 09:45

0

ответов

Как получить img / src или a / hrefs с помощью Html Agility Pack?

Я хочу использовать пакет гибкости HTML для синтаксического анализа ссылок на изображения и href со страницы HTML, но я просто не очень разбираюсь в XML или XPath. Хотя, просматривая справочные документы на многих веб-сайтах, я просто не могу ...

c# .net html html-parsing html-agility-pack

вопрос задан: 29 January 2011 08:48

0

ответов

Python HTMLParser: UnicodeDecodeError

Я использую HTMLParser для анализа страниц, которые я просматриваю с помощью urllib, и при передаче некоторых из них в HTMLParser сталкиваюсь с исключениями UnicodeDecodeError. Я пробовал использовать chardet для обнаружения кодировок и ...

python character-encoding html-parsing

вопрос задан: 25 January 2011 05:08

0

ответов

Django: создание пользовательского автоинкремента PK?

Я использовал пользовательские первичные ключи для модели в Django. (Это произошло потому, что я импортировал значения в базу данных, и к ним уже были прикреплены идентификаторы, и имело смысл сохранить существующие ...

c# linq html-parsing html-agility-pack

вопрос задан: 6 January 2011 16:53

0

ответов

Как определить, какие элементы видны в переполненном

По сути, я пытаюсь реализовать систему, которая ведет себя аналогично панели чтения, встроенной в Интерфейс Google Reader. Если вы этого не видели, Google Reader представляет каждую статью в виде ...

javascript jquery html html-parsing

вопрос задан: 4 January 2011 23:49

0

ответов

Разбор HTML в perl

Я пытаюсь разобрать следующую структуру HTML с помощью perl. Мне нужно выбрать все элементы dd, содержащие сообщение класса, а также идентификатор. Все, что я хотел бы, чтобы сценарий выполнял цикл ...

html perl html-parsing

вопрос задан: 4 January 2011 20:36

0

ответов

libxml2 не может правильно обрабатывать CDATA в HTML

I ' m с помощью libxml2.2.7.3 для синтаксического анализа html-страниц, и мне трудно заставить его правильно работать с CDATA в HTML. Вот код: xmlDocPtr doc = htmlReadMemory (data, length, "", NULL, 0); ...

html xml html-parsing libxml2

вопрос задан: 26 December 2010 17:35

0

ответов

Анализировать веб-сайт на предмет URL-адресов

Просто интересно, может ли кто-нибудь помочь мне со следующим. Я хочу проанализировать URL на этом веб-сайте: http: //www.directorycritic.com/free-directory-list.html? Pg = 1 & sort = pr У меня есть следующее ...

php html parsing html-parsing

вопрос задан: 16 December 2010 13:42

0

ответов

Как проверить HTML из Java?

Каков быстрый и простой способ проверки HTML из Java? Я ищу класс с открытым исходным кодом / PD (или набор классов), который описывает различные свойства 100 с лишним HTML-тегов, например: Является ли ...

java html html-parsing html-validation

вопрос задан: 8 December 2010 21:32

0

ответов

Ищу PHP-скрипт, который может очистить плохой HTML.

Я сейчас пишу скрипт командной строки PHP для преобразования сотен HTML-фрагменты в Markdown с помощью библиотеки Markdownify. Однако я столкнулся с ситуацией, когда часть моего HTML ...

php html-parsing

вопрос задан: 8 December 2010 19:10

0

ответов

F # синтаксический анализ html

Какие еще параметры существуют в настоящее время для синтаксического анализа html в F #? В настоящее время есть несколько регулярных выражений, но я бы предпочел что-то вроде Pythons Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ ...

html parsing f# html-parsing

вопрос задан: 4 November 2010 10:05

0

ответов

Очистка веб-страниц, очистка экрана, советы по интеллектуальному анализу данных? [закрыто]

Я работаю над проектом, и мне нужно сделать много очистки экрана, чтобы получить как можно больше данных. Мне интересно, знает ли кто-нибудь о хороших API или ресурсах, которые могут мне помочь. Я использую ...

java screen-scraping html-parsing data-mining web-scraping

вопрос задан: 2 November 2010 16:24

0

ответов

удалить теги комментариев HTML с помощью регулярного выражения

Вот как мой текст ( html) выглядит как

regex sed html-parsing

вопрос задан: 29 October 2010 20:59

0

ответов

Как вернуть необработанный XML из lxml?

Я использую следующий код для поиска div: parser = etree.HTMLParser () tree = etree.parse (StringIO (page), parser) div = tree.xpath ("// div [@ class = 'content']") [0] Моя единственная проблема в том, что после ...

python xml html-parsing lxml

вопрос задан: 24 October 2010 00:10

0

ответов

Как значимый текст извлечения от HTML

Я хотел бы проанализировать страницу HTML и извлечь значимый текст из него. Кто-либо знает, что некоторые хорошие алгоритмы делают это? Я разрабатываю свои приложения на направляющих, но я думаю, что рубин является немного медленным в этом...

html c ruby html-parsing html-content-extraction

вопрос задан: 19 October 2010 14:50

0

ответов

Найдите теги h3 и h4 под ним

Это мой HTML :

тест 1

мля

подзаголовок 1

мля

подзаголовок 2

тест 2

...

php dom html-parsing domdocument

вопрос задан: 1 October 2010 14:31

1
2
3
4
5
6
7
8