Похоже, что когда тип данных столбца object
, pandas
полностью игнорирует форматирование без выдачи предупреждений.
HtmlUnit является scriptable, бездисплейным браузером, записанным в Java. Мы используем его для некоторых чрезвычайно тяжелых отказом, сложных веб-страниц, и это обычно делает очень хорошее задание.
Для упрощения вещей еще больше, можно выполнить его в Jython. Результирующая программа читает больше как расшифровка стенограммы того, как можно было бы использовать браузер, чем тяжелая работа.
Вы не упоминаете то, для чего Вы хотите использовать это; Одно решение состоит в том, чтобы просто "написать сценарий" Ваших инструментов использования веб-браузера как Селен, если наличие веб-браузера повторяет, что Ваши действия являются приемлемым решением. Можно использовать Селен IDE для записи то, что Вы делаете и затем изменяете параметры.
Мне бы хотелось просто "записать свою сессию" быстро и затем параметризовать вещи, которые варьируются от сессии до сессии.
Если у Вас есть тестовый выпуск Visual Studio, это - веб-тестовая функция, делает это точно. Если Вы не используете VS или хотите одинокий инструмент, я имел большой успех с OpenSpan. Это - больше, чем просто сеть, это делает приложения Windows и Java!
Selenium был бы моим первым выбором, так как IDE позволяет вам делать многие вещи простым способом, «записывая» сеанс для вас. Но, если вы недовольны тем, что он предоставляет, вы также можете использовать модуль Python Beautiful Soup для программного обхода веб-сайта.
В Python и Perl есть модуль Mechanize (WWW :: Mechanize для perl), который позволяет легко программно выполнять поведение браузера (заполнять формы, обрабатывать файлы cookie, и т.д).
Итак, Python + BeautifulSoup (отличный анализатор html / xml) + механизация (функции браузера) = супер легкий / быстрый скребок
Я использовал DomInspector для ручной проверки интересующего сайта для параметризации его структуры. Затем простой Apache HttpClient и парсер ручной работы с использованием этой параметризованной структуры. В принципе, я мог бы автоматически извлекать любую информацию с любого сайта с небольшим изменением параметров. Это похоже на работу SAX-парсера, все, что вам нужно, это указать, с какой последовательности тегов вы хотите начать сбор данных. Например, у Google довольно стандартный формат результатов поиска. Итак, вы просто переходите к третьему вхождению «tab» и начинаете получать текст от первого «div» до конца «/ div»
Internet Explorer supports Browser Helper Objects (BHOs). They can access IE' HWND (window handle) and it's easy to scrape the pixels from there. The IWebBrowser2
COM interface also gives you access to the HTTP requests, and you can get back the parsed HTML document via IWebBrowser2::Document = IHTMLDocument / IHTMLDocument2 /IHTMLDocument3
Я не могу лично за это поручиться, но есть бесплатный плагин для Firefox: DejaClick Я установил его на днях и выполнил некоторые корректирующие действия по записи, воспроизведению и редактированию сценариев. Это потянуло их без особой кривой обучения. Если ваша конечная цель - показать что-то в веб-браузере, этого должно быть достаточно.
Они предлагают услуги мониторинга веб-транзакций, подразумевая, что вы можете экспортировать сценарии для других целей, но они могут быть слишком проприетарными для использования за пределами вашего веб-браузера / их платной службы. com /
Используя FireFox, можно реализовать большую часть его с его мощной поддержкой дополнений и улучшений, однако это не на самом деле не значит запускать «безголовый», но действительно быть настоящим скриптовым браузером. Кроме того, я вспоминаю, что читал, что браузер Google Chrome использует похожую технику для автоматического регрессионного тестирования.