Boto3 не включает в себя s3 sync
возможности. Это доступно только через инструмент AWS CLI. Вы можете упаковать инструмент CLI AWS с вашей функцией Python Lambda, выполнив шаги, описанные в этого ответа .
Блог manageability.org имеет запись, которая перечисляет целый набор инструментов очистки веб-страницы для Java. Однако я, кажется, не могу достигнуть его прямо сейчас, но я действительно находил текст только представлением в кэше Google здесь.
Я также добавил бы +1 для HtmlUnit, так как его функциональность очень мощна: если Вам нужно поведение, 'как будто реальный браузер очищал и использовал страницу', это - определенно доступный наилучший вариант. HtmlUnit выполняется (если Вы хотите его к), JavaScript на странице.
Это в настоящее время имеет полнофункциональную поддержку всех основных библиотек Javascript и выполнит код JS с помощью них. Соответствующий с этим можно получить дескрипторы к объектам JavaScript на странице программно в тесте.
Если однако объем того, что Вы пытаетесь сделать, меньше, больше вроде чтения некоторых элементов HTML и где Вы не очень заботитесь о JavaScript, то использование NekoHTML должно быть достаточным. Его подобное предоставлению JDom программного - а не XPath - доступ к дереву. Необходимо было бы, вероятно, использовать HttpClient Apache для получения страниц.
Необходимо смотреть на HtmlUnit - он был разработан для тестирования веб-сайтов, но работает отлично для анализа экранных данных и перешедший через несколько страниц. Это заботится о cookie и другом связанном с сессией материале.
Инструмент под названием Шлифовальный станок позволяет Вам писать сценарий сессии на сайт путем прохождения через его прокси. Выводом является Python (выполнимый в Jython).