[DE] Spark + Airflow #1: Spark on Kubernetes 구현하기
1. 배경현대 데이터 처리 시스템은 데이터 보관 > 데이터 통합 > 데이터 처리의 단계를 거칩니다. AWS에서 이 과정을 지원하는 대표적인 서비스는 아래와 같습니다:AWS S3: 확장성, 데이터 가용성, 보안, 성능을 제공하는 객체 스토리지 서비스입니다.AWS Glue: 데이터를 다양한 소스에서 추출, 변환, 통합하는 서버리스 데이터 통합 서비스입니다.AWS EMR: Apache Spark, Hive, Presto와 같은 오픈소스 프레임워크를 지원하여 대규모 데이터 분석과 머신러닝 작업을 수행할 수 있습니다.이번 글에서는 AWS EMR 대신 Kubernetes(K8s) 위에서 Spark를 실행하는 방법에 대해 다룹니다.2. Spark on Kubernetes 구성Kubernetes 위에서 Spark를 배..
2024. 11. 19.
최근댓글