0
ответов

Сопряжение контента на внешнем веб-сайте с записями в базе данных mySQL

tl;dr: я ищу способ найти записи в нашей базе данных, в которых отсутствует информация, получить эту информацию с веб-сайта и добавить ее в запись базы данных. У нас есть управление медиа...
вопрос задан: 25 May 2012 03:51
0
ответов

SelectSingleNode возвращает неверный результат при foreach

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument(); doc.LoadHtml (контент); var nodes = doc.DocumentNode.SelectNodes("//div[@class=\"noprint res\"]/div"); если (узлы != ноль) { ...
вопрос задан: 15 May 2012 10:39
0
ответов

PHP Xpath: получить все ссылки, содержащие «букву»

Допустим, у меня есть загруженный файл html, я запускаю этот запрос: $url = 'http://www.fangraphs.com/players.aspx '; $html = file_get_contents($url); $myDom = новый DOMDocument; $myDom->formatOutput = ...
вопрос задан: 15 May 2012 00:17
0
ответов

лучший валидатор / парсер HTML?

У меня большой файл HTML, и похоже, что некоторые теги не закрыты. Трудно найти. Я использую VIM в качестве редактора. Есть ли хороший способ найти его?
вопрос задан: 2 May 2012 07:44
0
ответов

Как добавить стороннюю dll в Tridion для C #TBB?

Я создаю C #TBB. У меня есть код XML, как показано ниже. 123 456 hi aa
вопрос задан: 27 April 2012 11:19
0
ответов

Автоматическое преобразование таблиц стилей во встроенный стиль

Не нужно беспокоиться о связанном стиле или стиле наведения. Я хочу автоматически конвертировать такие файлы, как этот <стиль> тело {фон: #FFC} п {фон: красный} body, p {font -...
вопрос задан: 27 April 2012 10:45
0
ответов

JSoup.connect выдает ошибку 403, в то время как apache.httpclient может получить содержимое

Я пытаюсь проанализировать HTML дамп любой заданной страницы. Я использовал HTML Parser, а также пробовал JSoup для синтаксического анализа. Я нашел полезные функции в Jsoup, но получаю ошибку 403 при вызове Document doc = Jsoup....
вопрос задан: 12 April 2012 09:24
0
ответов

Анализ таблицы с rowspan и colspan

У меня есть таблица, которую мне нужно проанализировать, в частности, это школьное расписание с 4 блоками времени и 5 блоками дней на каждую неделю. Я пытался разобрать его, но, честно говоря, не продвинулся очень далеко...
вопрос задан: 4 April 2012 17:19
0
ответов

Анализ HTML с помощью BeautifulSoup 4 и Python

Я пытаюсь проанализировать список результатов http://mobile.de. Сначала я попробовал это с классом HTMLParser, но получил ошибку: HTMLParser.HTMLParseError: EOF в середине конструкции. Итак, я попробовал это с помощью ...
вопрос задан: 30 March 2012 08:44
0
ответов

Веб-скрапинг в PHP

Я ищу способ сделать небольшой предварительный просмотр другой страницы с URL-адреса, указанного пользователем в PHP. Я хотел бы получить только заголовок страницы, изображение (например, логотип веб-сайта) и немного ...
вопрос задан: 21 March 2012 21:56
0
ответов

Удаление тегов скрипта и стиля из HTML с помощью BeautifulSoup?

У меня есть простой сценарий, в котором я получаю HTML-страницу и передаю ее в BeautifulSoup, чтобы удалить все теги скриптов и стилей, затем я хочу передать результат HTML другому методу. Есть ли простой способ ...
вопрос задан: 16 March 2012 02:19
0
ответов

Python HTMLParser, разделяющий данные на &

Я использую простой HTMLParser для анализа веб-страницы с кодом, который всегда имеет правильный формат (он генерируется автоматически). Он работает хорошо, пока не наткнется на часть данных со знаком '&' - кажется...
вопрос задан: 14 March 2012 22:23
0
ответов

Синтаксический анализатор JavaScript для DOM

У нас есть особое требование в проекте, где мы должны анализировать строку HTML (из ответа AJAX) на стороне клиента только с помощью JavaScript. Правильно, никакого парсинга в PHP или Java! Я собирался ...
вопрос задан: 2 March 2012 21:15
0
ответов

Извлечение основного содержимого (наибольшая плотность текста) из веб-страницы новостной статьи [закрыто]

Я хочу создать код для извлечения основных новостей с новостного веб-сайта. Новостные веб-сайты содержат основные новости, рекламу, обзоры, уведомление об авторских правах, поэтому я хочу получать только основные новости, как это сделано в котле ...
вопрос задан: 2 March 2012 12:01
0
ответов

php - как я могу получить значение атрибута тега div

У меня есть div, который может быть скрыт или нет, в зависимости от пользователя. У этого div есть атрибут attrLoc. Я бы хотел получить возможность извлекать значение этого атрибута из php. Надеюсь, кто-нибудь сможет ...
вопрос задан: 28 February 2012 08:13
0
ответов

Как получить этот текст с помощью Jsoup?

Как получить «этот текст» из следующего HTML-кода с помощью Jsoup?
0
ответов

получение значение атрибута из тега Div через jSoup

У меня есть тег Div, как показано ниже
5 дней 07: 14:41
Как мне получить значение eventTTL? Я хочу ...
вопрос задан: 10 February 2012 15:57
0
ответов

beautifulsoup возвращает данные как None, которые включают тег

У меня есть такие данные в таблице:
Имя Город
вопрос задан: 6 February 2012 06:33
0
ответов

Замена тега HTML div InnerText с помощью HTML Agility Pack

Я использую HTML Agility Pack для управления и редактирования HTML документ. Я хочу изменить текст в поле, например:
Здесь какой-то текст.
вопрос задан: 2 February 2012 02:56
0
ответов

Пользовательские самозакрывающиеся / непарные теги в HTML?

Следующий код [jsfiddle] ... var div = document.createElement ("div"); div.innerHTML = " Это тест.
Другой тест.
"; оповещение (div.innerHTML); ......
вопрос задан: 1 February 2012 10:28
0
ответов

Использование XPath Contains против HTML в Java

Я очищаю значения с HTML-страниц, используя XPath внутри java-программы, чтобы добраться до определенного тега, и иногда использую регулярные выражения для очистки получаемых данных. После некоторого исследования я ...
вопрос задан: 26 January 2012 17:07
0
ответов

Как удалить символы в кодировке HTML из строки?

У меня есть строка, содержащая некоторые символы в кодировке HTML, и я хочу их удалить: «
Привет всем ,
& ...
вопрос задан: 19 January 2012 22:34
0
ответов

Почему Array.to_s возвращает квадратные скобки?

Для массива, когда я набираю: put array [0] ==> text Тем не менее, когда я набираю, put array [0] .to_s ==> ["text"] Почему скобки и цитаты? Что мне не хватает? ДОБАВЛЕНИЕ: мой код выглядит так: page = ...
вопрос задан: 12 January 2012 04:53
0
ответов

удалить пустые пары тегов из фрагмента HTML

У меня есть отправленная пользователем строка, содержащая HTML-контент, например "

Здравствуйте
мир

«Я хотел бы преобразовать ...
вопрос задан: 6 January 2012 10:31
0
ответов

Как нормализовать HTML в JavaScript или jQuery?

Теги могут иметь несколько атрибутов. Порядок, в котором атрибуты появляются в коде, не имеет значения. Например: Как я могу "нормализовать" ...
вопрос задан: 14 December 2011 15:27
0
ответов

Пакет HTML Agility: анализ тега href

Как мне эффективно проанализировать значение атрибута href из этого:
7
вопрос задан: 13 December 2011 23:34
0
ответов

получить страницы [LWP] проанализировать их [HTML :: TokeParser] и сохранить результаты [DBI]

Тройная работа: мне нужно выполнить работу с древовидной задачей. У нас есть три задачи: Получить страницы Разобрать HTML Хранить данные ... И да - это настоящая Perl-работа! Я должен выполнить парсер на всех 6000 подстраницах ...
вопрос задан: 8 December 2011 17:01
0
ответов

Извлечь и очистить фрагмент HTML с помощью анализатора HTML (org.htmlparser)

Я ищу эффективный подход к извлечению фрагмента HTML с веб-страницы и выполнению некоторых конкретные операции с этим фрагментом HTML. Требуются следующие операции: Удалить все теги ...
вопрос задан: 2 December 2011 14:30
0
ответов

Xpath vs DOM vs BeautifulSoup vs lxml vs other Какой метод разбора веб-страницы самый быстрый?

Я знаю, как разобрать страницу с помощью Python. Мой вопрос в том, какой метод является самым быстрым из всех методов парсинга, насколько он быстрее других? Методы парсинга, которые я знаю, это Xpath, DOM, BeautifulSoup, ...
вопрос задан: 1 December 2011 15:50
0
ответов

Разобрать таблицу html с помощью file_get_contents в массив php

Я пытаюсь преобразовать таблицу, показанную здесь, в многомерный массив php. Я использую следующий код, но по какой-то причине он возвращает пустой массив. После поиска в Интернете я обнаружил ...
вопрос задан: 27 November 2011 16:56