aws-glue - список вопросов по программированию aws-glue

AWS Glue - это полностью управляемый сервис ETL (извлечение, преобразование и загрузка), который может классифицировать ваши данные, очищать их, обогащать и перемещать между различными хранилищами данных. AWS Glue состоит из центрального хранилища данных, известного как AWS Glue Data Catalog, механизма ETL, который автоматически генерирует код Python, и планировщика, который обрабатывает разрешение зависимостей, мониторинг заданий и повторные попытки. AWS Glue является бессерверным, поэтому не нужно управлять инфраструктурой.

AWS Glue состоит из нескольких компонентов:

Каталог данных (реализующий функциональность Hive Metastore) по источникам данных AWS, прежде всего S3, но также и любой источник данных JDBC в AWS, включая Amazon RDS и Amazon Redshift
Crawlers , которые выполняют классификацию данных и обнаружение схем по данным S3 и регистрируют данные в каталоге данных [117 ]
Распределенная среда обработки данных , которая расширяет возможности PySpark для повышения гибкости схемы.
Инструменты генерации кода для шаблонов и загрузочных сценариев обработки данных
Планирование для сканеров и сценариев обработки данных
Бессерверная разработка и выполнение сценариев в среде Apache Spark (2.x).

Данные, зарегистрированные в каталоге клейких данных AWS, доступны для многих сервисов AWS, включая

Amazon Redshift Spectrum
EMR (Hadoop, Hive, HBase , Presto, Spark, Impala и др.)
Amazon Athena
Скрипты AWS Glue