В Firefox есть расширение под названием «Html» Валидатор ». Он добавляет маленький значок индикатора в правом нижнем углу вашего окна. Когда посещаемая вами страница недействительна, она загорается. Вы можете щелкнуть по нему ...
Я изучаю язык программирования Google Go. Кто-нибудь знает, как лучше всего извлекать все URL-адреса с веб-страницы html? Из мира Java есть библиотеки для выполнения этой работы, например...
Учитывая веб-страницу новостной статьи (из любого основного источника новостей, например Times или bloomberg), я хочу определить основное содержание статьи на этой странице и выбросить другие элементы, такие как реклама, меню, ...
У меня есть следующая структура DOM / HTML, я хочу получить (просто тренируясь ...) отмеченные данные. Тот, что находится под элементом h2. Этот элемент div [@ class = "coordsAgence"] содержит еще несколько элементов div ...
Мне нужно синтаксического анализа (на стороне сервера) большие количества HTML-страниц.
Мы все согласны, что Regexp не так, чтобы пойти сюда.
Мне кажется, что JavaScript является родным способом анализа HTML-страницы, но это ...
Есть веб-сайт, созданный с помощью ColdFusion (не уверен, имеет ли это значение). Мне нужно взаимодействовать с этим веб-сайтом. Главное, что мне нужно сделать, это перейти на разные страницы и щелкнуть ...
Я на полпути к синтаксическому анализатору html и обнаружил, что html5 явно определил практические правила для синтаксического анализа плохо сформированного html. (И я имел обыкновение выводить их из DTD, вздох) Мне нравится этот факт, но я хорошо знаю
Каково текущее состояние библиотек для парсинга веб-сайтов с помощью Haskell? Я пытаюсь заставить себя выполнять больше моих быстрых одноразовых задач в Haskell, чтобы повысить уровень комфорта с помощью ...
Я пытается создать фрагмент кода для удаления всех атрибутов стиля независимо от тега с помощью HtmlAgilityPack. Вот мой код: var elements = htmlDoc.DocumentNode.SelectNodes ("// *"); if (elements! = ...
Допустим, у меня есть HTML-файл с множеством разных элементов, каждый из которых имеет разные атрибуты. Допустим, я не знаю заранее, как будет выглядеть этот HTML. Используя PHP DOMDocument, как я могу ...
Я хочу получить теги с атрибутом "class", равным "someclass", но только те теги, для которых не определен атрибут "id". Я попробовал следующее (на основе этого ответа ), но не сработало :$html ->...
Я хочу проанализировать HTML-документ и получить никнеймы всех пользователей. Они имеют следующий формат: Псевдоним Как это сделать с помощью регулярного выражения ...
Я использую wysiwyg-редактор CKEditor для веб-сайта, где пользователям разрешено использовать HTML-редактор для добавления комментариев. В итоге у меня в базе данных оказался чрезвычайно избыточный вложенный HTML-код...
Мне нужно регулярное выражение, которое даст мне строку внутри тега href, а также внутри кавычек. Например, мне нужно извлечь theurltoget.com следующим образом: URL-адрес a & ...
Все знают, что мы должны всегда использовать методы DOM вместо regexes для извлечения содержания из HTML, но я получаю чувство, что я никогда не могу доверять SimpleXML дополнительные или подобные. Я...
Я написал небольшое приложение, которому требуется доступ к DOM-представлению базовой HTML-страницы. Lxml действительно хорош, но мне не удалось найти такой интерфейс. Есть ли ...
Как я могу безопасно встроить некоторые данные JSON в HTML-документ в приложении Rails 3.1? Предположим, у меня есть это в действии контроллера: @tags = [{name: "tag1", color: "green"}, {name: " & ...
В JavaScript DOM childNodes.length возвращает количество как элементов, так и текстовых узлов. Есть ли способ подсчитать только количество дочерних узлов, содержащих только элементы? Например, childNodes.length из div # ...
У меня проблемы с использованием PHP-функции strip_tags, когда строка содержит "меньше" и " больше, чем знаки. Например: Если я использую: strip_tags (" некоторый текст <5ml, а затем> ...
Я загружаю URL-адрес с помощью IdHTTP.Get, и мне нужно найти теги HTML и извлечь некоторые данные. Как я могу преобразовать строку, которую возвращает IdHTTP.Get, в IHTMLDocument2?
Когда я использую QDomDocument с содержимым HTML, ему не удается установить содержимое, если в начале документа есть . А собственно почему?! например, рассмотрим следующий фрагмент...
У меня много файлов HTML. Я хочу заменить некоторые элементы, сохранив все остальное содержимое без изменений. Например, я хотел бы выполнить это выражение jQuery (или его эквивалент ):$ ('.header...
Я пытаюсь разобрать HTML-файл, который имеет ужасную (поверьте мне, это )HTML-структура, и из-за этого и отсутствия у меня знаний я не смог написать свой собственный парсер. Позже я попытался использовать Simple HTML Dom...
Веду базу статей с форматированием HTML. К сожалению, редакторы, которые писали статьи, не знали надлежащего HTML, поэтому они часто писали что-то вроде :
Я пытаюсь сопоставить страну или страну, используя функцию нижнего регистра в XPath. перевод немного запутан, поэтому использование нижнего регистра, а моя версия Python 2.6.6 имеет поддержку XPath 2.0, я полагаю, что с нижнего...
Я хотел бы собрать весь раздел кода , присутствующий на странице HTML, в некоторой переменной. Каким должен быть более простой способ сделать это? Любая идея, как его можно получить...