AWS Glue - это полностью управляемый сервис ETL (извлечение, преобразование и загрузка), который может классифицировать ваши данные, очищать их, обогащать и перемещать между различными хранилищами данных. AWS Glue состоит из центрального хранилища данных, известного как AWS Glue Data Catalog, механизма ETL, который автоматически генерирует код Python, и планировщика, который обрабатывает разрешение зависимостей, мониторинг заданий и повторные попытки. AWS Glue является бессерверным, поэтому не нужно управлять инфраструктурой.
AWS Glue состоит из нескольких компонентов:
- Каталог данных (реализующий функциональность Hive Metastore) по источникам данных AWS, прежде всего S3, но также и любой источник данных JDBC в AWS, включая Amazon RDS и Amazon Redshift
- Crawlers , которые выполняют классификацию данных и обнаружение схем по данным S3 и регистрируют данные в каталоге данных [117 ]
- Распределенная среда обработки данных , которая расширяет возможности PySpark для повышения гибкости схемы.
- Инструменты генерации кода для шаблонов и загрузочных сценариев обработки данных
- Планирование для сканеров и сценариев обработки данных
- Бессерверная разработка и выполнение сценариев в среде Apache Spark (2.x).
Данные, зарегистрированные в каталоге клейких данных AWS, доступны для многих сервисов AWS, включая
- Amazon Redshift Spectrum
- EMR (Hadoop, Hive, HBase , Presto, Spark, Impala и др.)
- Amazon Athena
- Скрипты AWS Glue