AWS Glue - это полностью управляемый сервис ETL (извлечение, преобразование и загрузка), который может классифицировать ваши данные, очищать их, обогащать и перемещать между различными хранилищами данных. AWS Glue состоит из центрального хранилища данных, известного как AWS Glue Data Catalog, механизма ETL, который автоматически генерирует код Python, и планировщика, который обрабатывает разрешение зависимостей, мониторинг заданий и повторные попытки. AWS Glue является бессерверным, поэтому не нужно управлять инфраструктурой.

AWS Glue состоит из нескольких компонентов:

  1. Каталог данных (реализующий функциональность Hive Metastore) по источникам данных AWS, прежде всего S3, но также и любой источник данных JDBC в AWS, включая Amazon RDS и Amazon Redshift
  2. Crawlers , которые выполняют классификацию данных и обнаружение схем по данным S3 и регистрируют данные в каталоге данных [117 ]
  3. Распределенная среда обработки данных , которая расширяет возможности PySpark для повышения гибкости схемы.
  4. Инструменты генерации кода для шаблонов и загрузочных сценариев обработки данных
  5. Планирование для сканеров и сценариев обработки данных
  6. Бессерверная разработка и выполнение сценариев в среде Apache Spark (2.x).

Данные, зарегистрированные в каталоге клейких данных AWS, доступны для многих сервисов AWS, включая

  • Amazon Redshift Spectrum
  • EMR (Hadoop, Hive, HBase , Presto, Spark, Impala и др.)
  • Amazon Athena
  • Скрипты AWS Glue