Сверхбыстрые методы анализа экранных данных? [закрытый]

Похоже, что когда тип данных столбца object, pandas полностью игнорирует форматирование без выдачи предупреждений.

12
задан Ish 26 February 2009 в 08:30
поделиться

9 ответов

HtmlUnit является scriptable, бездисплейным браузером, записанным в Java. Мы используем его для некоторых чрезвычайно тяжелых отказом, сложных веб-страниц, и это обычно делает очень хорошее задание.

Для упрощения вещей еще больше, можно выполнить его в Jython. Результирующая программа читает больше как расшифровка стенограммы того, как можно было бы использовать браузер, чем тяжелая работа.

9
ответ дан 2 December 2019 в 06:10
поделиться

Вы не упоминаете то, для чего Вы хотите использовать это; Одно решение состоит в том, чтобы просто "написать сценарий" Ваших инструментов использования веб-браузера как Селен, если наличие веб-браузера повторяет, что Ваши действия являются приемлемым решением. Можно использовать Селен IDE для записи то, что Вы делаете и затем изменяете параметры.

4
ответ дан 2 December 2019 в 06:10
поделиться

Мне бы хотелось просто "записать свою сессию" быстро и затем параметризовать вещи, которые варьируются от сессии до сессии.

Если у Вас есть тестовый выпуск Visual Studio, это - веб-тестовая функция, делает это точно. Если Вы не используете VS или хотите одинокий инструмент, я имел большой успех с OpenSpan. Это - больше, чем просто сеть, это делает приложения Windows и Java!

3
ответ дан 2 December 2019 в 06:10
поделиться

Selenium был бы моим первым выбором, так как IDE позволяет вам делать многие вещи простым способом, «записывая» сеанс для вас. Но, если вы недовольны тем, что он предоставляет, вы также можете использовать модуль Python Beautiful Soup для программного обхода веб-сайта.

3
ответ дан 2 December 2019 в 06:10
поделиться

В Python и Perl есть модуль Mechanize (WWW :: Mechanize для perl), который позволяет легко программно выполнять поведение браузера (заполнять формы, обрабатывать файлы cookie, и т.д).

Итак, Python + BeautifulSoup (отличный анализатор html / xml) + механизация (функции браузера) = супер легкий / быстрый скребок

2
ответ дан 2 December 2019 в 06:10
поделиться

Я использовал DomInspector для ручной проверки интересующего сайта для параметризации его структуры. Затем простой Apache HttpClient и парсер ручной работы с использованием этой параметризованной структуры. В принципе, я мог бы автоматически извлекать любую информацию с любого сайта с небольшим изменением параметров. Это похоже на работу SAX-парсера, все, что вам нужно, это указать, с какой последовательности тегов вы хотите начать сбор данных. Например, у Google довольно стандартный формат результатов поиска. Итак, вы просто переходите к третьему вхождению «tab» и начинаете получать текст от первого «div» до конца «/ div»

1
ответ дан 2 December 2019 в 06:10
поделиться

Internet Explorer supports Browser Helper Objects (BHOs). They can access IE' HWND (window handle) and it's easy to scrape the pixels from there. The IWebBrowser2 COM interface also gives you access to the HTTP requests, and you can get back the parsed HTML document via IWebBrowser2::Document = IHTMLDocument / IHTMLDocument2 /IHTMLDocument3

1
ответ дан 2 December 2019 в 06:10
поделиться

Я не могу лично за это поручиться, но есть бесплатный плагин для Firefox: DejaClick Я установил его на днях и выполнил некоторые корректирующие действия по записи, воспроизведению и редактированию сценариев. Это потянуло их без особой кривой обучения. Если ваша конечная цель - показать что-то в веб-браузере, этого должно быть достаточно.

Они предлагают услуги мониторинга веб-транзакций, подразумевая, что вы можете экспортировать сценарии для других целей, но они могут быть слишком проприетарными для использования за пределами вашего веб-браузера / их платной службы. com /

1
ответ дан 2 December 2019 в 06:10
поделиться

Используя FireFox, можно реализовать большую часть его с его мощной поддержкой дополнений и улучшений, однако это не на самом деле не значит запускать «безголовый», но действительно быть настоящим скриптовым браузером. Кроме того, я вспоминаю, что читал, что браузер Google Chrome использует похожую технику для автоматического регрессионного тестирования.

1
ответ дан 2 December 2019 в 06:10
поделиться
Другие вопросы по тегам:

Похожие вопросы: