0
ответов

Есть ли встроенный валидатор HTML в любом крупном браузере?

В Firefox есть расширение под названием «Html» Валидатор ». Он добавляет маленький значок индикатора в правом нижнем углу вашего окна. Когда посещаемая вами страница недействительна, она загорается. Вы можете щелкнуть по нему ...
вопрос задан: 7 October 2015 16:10
0
ответов

Извлечение ссылок из веб-страница с использованием языка Go

Я изучаю язык программирования Google Go. Кто-нибудь знает, как лучше всего извлекать все URL-адреса с веб-страницы html? Из мира Java есть библиотеки для выполнения этой работы, например...
вопрос задан: 24 August 2015 15:08
0
ответов

Веб-парсинг - как определить основной контент на веб-странице

Учитывая веб-страницу новостной статьи (из любого основного источника новостей, например Times или bloomberg), я хочу определить основное содержание статьи на этой странице и выбросить другие элементы, такие как реклама, меню, ...
вопрос задан: 13 August 2015 09:53
0
ответов

Получить (текст) в XPath

У меня есть следующая структура DOM / HTML, я хочу получить (просто тренируясь ...) отмеченные данные. Тот, что находится под элементом h2. Этот элемент div [@ class = "coordsAgence"] содержит еще несколько элементов div ...
вопрос задан: 4 June 2015 17:40
0
ответов

Как разобрать HTML-страницу с Node.js

Мне нужно синтаксического анализа (на стороне сервера) большие количества HTML-страниц. Мы все согласны, что Regexp не так, чтобы пойти сюда. Мне кажется, что JavaScript является родным способом анализа HTML-страницы, но это ...
вопрос задан: 26 May 2015 14:14
0
ответов

Взаимодействие с веб-страницами на C #

Есть веб-сайт, созданный с помощью ColdFusion (не уверен, имеет ли это значение). Мне нужно взаимодействовать с этим веб-сайтом. Главное, что мне нужно сделать, это перейти на разные страницы и щелкнуть ...
вопрос задан: 27 February 2015 20:46
0
ответов

HTML5: W3C против WHATWG. Что дает наиболее авторитетную спецификацию?

Я на полпути к синтаксическому анализатору html и обнаружил, что html5 явно определил практические правила для синтаксического анализа плохо сформированного html. (И я имел обыкновение выводить их из DTD, вздох) Мне нравится этот факт, но я хорошо знаю
вопрос задан: 30 October 2014 01:46
0
ответов

Парсинг веб-сайтов с помощью Haskell

Каково текущее состояние библиотек для парсинга веб-сайтов с помощью Haskell? Я пытаюсь заставить себя выполнять больше моих быстрых одноразовых задач в Haskell, чтобы повысить уровень комфорта с помощью ...
вопрос задан: 10 September 2014 01:12
0
ответов

Удалить атрибуты с помощью HtmlAgilityPack

Я пытается создать фрагмент кода для удаления всех атрибутов стиля независимо от тега с помощью HtmlAgilityPack. Вот мой код: var elements = htmlDoc.DocumentNode.SelectNodes ("// *"); if (elements! = ...
вопрос задан: 5 August 2014 19:28
0
ответов

Используя DOMDocument, возможно ли получить все элементы, которые существуют в определенном DOM?

Допустим, у меня есть HTML-файл с множеством разных элементов, каждый из которых имеет разные атрибуты. Допустим, я не знаю заранее, как будет выглядеть этот HTML. Используя PHP DOMDocument, как я могу ...
вопрос задан: 24 April 2014 12:53
0
ответов

простой html dom :как получить тег без определенного атрибута

Я хочу получить теги с атрибутом "class", равным "someclass", но только те теги, для которых не определен атрибут "id". Я попробовал следующее (на основе этого ответа ), но не сработало :$html ->...
вопрос задан: 5 February 2014 15:34
0
ответов

Регулярное выражение HTML-синтаксического анализа

Я хочу проанализировать HTML-документ и получить никнеймы всех пользователей. Они имеют следующий формат: Псевдоним Как это сделать с помощью регулярного выражения ...
вопрос задан: 22 October 2013 17:22
0
ответов

Очистка HTML путем удаления лишних/избыточных тегов форматирования

Я использую wysiwyg-редактор CKEditor для веб-сайта, где пользователям разрешено использовать HTML-редактор для добавления комментариев. В итоге у меня в базе данных оказался чрезвычайно избыточный вложенный HTML-код...
вопрос задан: 29 August 2013 10:26
0
ответов

PHP регулярное выражение, чтобы получить строку внутри тега href

Мне нужно регулярное выражение, которое даст мне строку внутри тега href, а также внутри кавычек. Например, мне нужно извлечь theurltoget.com следующим образом: URL-адрес
вопрос задан: 2 August 2013 14:58
0
ответов

Bulletproofing SimpleXMLElement

Все знают, что мы должны всегда использовать методы DOM вместо regexes для извлечения содержания из HTML, но я получаю чувство, что я никогда не могу доверять SimpleXML дополнительные или подобные. Я...
вопрос задан: 24 June 2013 02:15
0
ответов

Интерфейс DOMDocument для python lxml

Я написал небольшое приложение, которому требуется доступ к DOM-представлению базовой HTML-страницы. Lxml действительно хорош, но мне не удалось найти такой интерфейс. Есть ли ...
вопрос задан: 26 May 2013 12:07
0
ответов

Как безопасно встроить JSON с помощью в HTML-документ?

Как я могу безопасно встроить некоторые данные JSON в HTML-документ в приложении Rails 3.1? Предположим, у меня есть это в действии контроллера: @tags = [{name: "tag1", color: "green"}, {name: " & ...
вопрос задан: 7 March 2013 07:46
0
ответов

JavaScript DOM childNodes.length также возвращает количество текстовых узлов

В JavaScript DOM childNodes.length возвращает количество как элементов, так и текстовых узлов. Есть ли способ подсчитать только количество дочерних узлов, содержащих только элементы? Например, childNodes.length из div # ...
вопрос задан: 1 March 2013 02:17
0
ответов

Свойство php DOMDocument nodeName, возвращающее '#text' с nodeName

Я хочу извлечь содержимое тела html-страницы вместе с tagNames ее дочернего элемента. Я взял пример html следующим образом: <голова> <тело>

Это...

вопрос задан: 17 February 2013 03:36
0
ответов

Как удалять теги безопаснее, чем с помощью функции strip_tags ?

У меня проблемы с использованием PHP-функции strip_tags, когда строка содержит "меньше" и " больше, чем знаки. Например: Если я использую: strip_tags (" некоторый текст <5ml, а затем> ...
вопрос задан: 18 January 2013 03:41
0
ответов

Как создать IHTMLDocument2, используя строку из TIdHTTP?

Я загружаю URL-адрес с помощью IdHTTP.Get, и мне нужно найти теги HTML и извлечь некоторые данные. Как я могу преобразовать строку, которую возвращает IdHTTP.Get, в IHTMLDocument2?
вопрос задан: 18 December 2012 13:15
0
ответов

Какой из lxml и libxml2 лучше подходит для синтаксического анализа искаженного HTML в Python?

Какой один лучше и полезнее для искаженного html? Не могу найти, как использовать libxml2. Спасибо.
вопрос задан: 20 November 2012 15:24
0
ответов

QDomDocument не может установить содержимое HTML-документа с тегом

Когда я использую QDomDocument с содержимым HTML, ему не удается установить содержимое, если в начале документа есть . А собственно почему?! например, рассмотрим следующий фрагмент...
вопрос задан: 12 August 2012 13:46
0
ответов

Разбирать HTML и сохранять исходный контент

У меня много файлов HTML. Я хочу заменить некоторые элементы, сохранив все остальное содержимое без изменений. Например, я хотел бы выполнить это выражение jQuery (или его эквивалент ):$ ('.header...
вопрос задан: 10 August 2012 19:14
0
ответов

Как получить весь текст между двумя указанными тегами с помощью BeautifulSoup?

HTML = """... все <большой> ( повторяемый <большой> )
вопрос задан: 4 August 2012 13:14
0
ответов

Простой HTML-дом -Неустранимая ошибка при использовании файла загрузки _

Я пытаюсь разобрать HTML-файл, который имеет ужасную (поверьте мне, это )HTML-структура, и из-за этого и отсутствия у меня знаний я не смог написать свой собственный парсер. Позже я попытался использовать Simple HTML Dom...
вопрос задан: 14 July 2012 13:33
0
ответов

Как разобрать недопустимый HTML с помощью Perl?

Веду базу статей с форматированием HTML. К сожалению, редакторы, которые писали статьи, не знали надлежащего HTML, поэтому они часто писали что-то вроде :
<...
вопрос задан: 4 July 2012 21:12
0
ответов

Чтение значения из узла HTML

Я новичок в разборе XML/HTML -. Даже не знаю правильных слов, чтобы правильно искать дубликаты. У меня есть HTML-файл, который выглядит так: :
вопрос задан: 1 July 2012 13:16
0
ответов

Как выполнить поиск Python XPath без учета регистра с помощью lxml?

Я пытаюсь сопоставить страну или страну, используя функцию нижнего регистра в XPath. перевод немного запутан, поэтому использование нижнего регистра, а моя версия Python 2.6.6 имеет поддержку XPath 2.0, я полагаю, что с нижнего...
вопрос задан: 28 June 2012 15:38
0
ответов

Как собрать все теги скрипта HTML-страницы в переменную

Я хотел бы собрать весь раздел кода , присутствующий на странице HTML, в некоторой переменной. Каким должен быть более простой способ сделать это? Любая идея, как его можно получить...
вопрос задан: 18 June 2012 07:41