Во-первых, это не вопрос о том, как очищать веб-сайты. Я полностью осведомлен о доступных мне инструментах для очистки (css_parser, nokogiri и т. Д. Я использую Ruby для очистки). Это больше о ...
Я хочу извлечь пару ссылок с html-страницы, загруженной из Интернета, я думаю, что использование linq to XML было бы хорошим решением для моего случая.
Моя проблема в том, что я не могу создать ...
Я пытаясь создать некоторый xpath, который найдет все теги, не содержащие тегов img, так что что-то вроде link соответствует, но xpathhtml-parsingxml-parsing
Я могу проанализировать документ и сгенерировать вывод, однако вывод не может быть проанализирован в XElement из-за тега ap, все остальное в строке анализируется правильно. Мой ввод: var input = "...
У меня есть лист Excel с ячейками, содержащими html. Как я могу конвертировать их в обычный текст? На данный момент так много бесполезных тегов и стилей. Я хочу написать это с нуля, но это будет далеко ...
У меня есть следующий HTML-код, который находится внутри большого документа < br / > Важный текст 1 < br / > < br / > Не важный текст < br / > Важный текст 2 < br / > Важный текст 3 < ...
Обилие парсеров HTML на выбор (и использование которых) просто ошеломляет: http://java-source.net/open-source/html-parsers Как выбрать тот, который лучше всего соответствует следующим требованиям: ...
Просто попробовал использовать пакет HtmlAgility в первый раз и возникла проблема. Сначала я загружаюсь из строковой переменной. строка NewsText = dr ["Сообщение"]. ToString ();
HtmlAgilityPack.HtmlDocument htmlDoc = ...
Есть ли способ получить E4X (ECMAScript ) работать с NodeJS? Это действительно помогло бы выводить гладкий html / xml без хлопот и шума. Он отлично работает с SpiderMonkey, так как он изначально реализован, ...
I'm trying to parse HTML data in an email using PHP's IMAP functions. When I echo imap_body($Mailbox, 1); by example, the HTMl contained inside seems to be converted into
a different encoding (MIME I ...
Я пытаюсь понять это table http://www.datamystic.com/timezone/time_zones.html в формат массива, чтобы я мог делать с ним все, что захочу. Желательно на PHP, Python или JavaScript. Это своего рода ...
Я хочу использовать пакет гибкости HTML для синтаксического анализа ссылок на изображения и href со страницы HTML, но я просто не очень разбираюсь в XML или XPath. Хотя, просматривая справочные документы на многих веб-сайтах, я просто не могу ...
Я использую HTMLParser для анализа страниц, которые я просматриваю с помощью urllib, и при передаче некоторых из них в HTMLParser сталкиваюсь с исключениями UnicodeDecodeError. Я пробовал использовать chardet для обнаружения кодировок и ...
Я использовал пользовательские первичные ключи для модели в Django. (Это произошло потому, что я импортировал значения в базу данных, и к ним уже были прикреплены идентификаторы, и имело смысл сохранить существующие ...
Я пытаюсь разобрать следующую структуру HTML с помощью perl. Мне нужно выбрать все элементы dd, содержащие сообщение класса, а также идентификатор. Все, что я хотел бы, чтобы сценарий выполнял цикл ...
I ' m с помощью libxml2.2.7.3 для синтаксического анализа html-страниц, и мне трудно заставить его правильно работать с CDATA в HTML. Вот код: xmlDocPtr doc = htmlReadMemory (data, length, "", NULL, 0);
...
Просто интересно, может ли кто-нибудь помочь мне со следующим. Я хочу проанализировать URL на этом веб-сайте: http: //www.directorycritic.com/free-directory-list.html? Pg = 1 & sort = pr У меня есть следующее ...
Каков быстрый и простой способ проверки HTML из Java? Я ищу класс с открытым исходным кодом / PD (или набор классов), который описывает различные свойства 100 с лишним HTML-тегов, например: Является ли ...
Я сейчас пишу скрипт командной строки PHP для преобразования сотен HTML-фрагменты в Markdown с помощью библиотеки Markdownify. Однако я столкнулся с ситуацией, когда часть моего HTML ...
Какие еще параметры существуют в настоящее время для синтаксического анализа html в F #? В настоящее время есть несколько регулярных выражений, но я бы предпочел что-то вроде Pythons Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ ...
Я работаю над проектом, и мне нужно сделать много очистки экрана, чтобы получить как можно больше данных. Мне интересно, знает ли кто-нибудь о хороших API или ресурсах, которые могут мне помочь. Я использую ...
Я использую следующий код для поиска div: parser = etree.HTMLParser ()
tree = etree.parse (StringIO (page), parser) div = tree.xpath ("// div [@ class = 'content']") [0] Моя единственная проблема в том, что после ...
Я хотел бы проанализировать страницу HTML и извлечь значимый текст из него. Кто-либо знает, что некоторые хорошие алгоритмы делают это? Я разрабатываю свои приложения на направляющих, но я думаю, что рубин является немного медленным в этом...