AWS 기술 블로그

Amazon SageMaker와 Airflow를 이용한 SK브로드밴드의 MLOps 플랫폼 구축 사례

SK브로드밴드는 ASDL 상용화, Pre-IPTV 서비스 제공 등 통신 방송 시장을 선도하며, 동시에 미디어 비즈니스 모델 다변화를 통한 종합 미디어 플랫폼 기업으로 성장하고 있습니다. SK텔레콤과 One Body 체계로 T-B 시너지를 극대화하여 AI/DT 기반 미디어, B2B, 인프라 분야를 확장해나가고 있습니다. 이제는 ‘AI COMPANY’라는 전사 지향점을 중심으로 비즈니스 전 영역에 걸친 AI 전환을 추진하여 사업 경쟁력을 지속적으로 강화해 나가고 있습니다.

SK 브로드밴드 AIX 개발 담당 조직 소개

AIX 개발 조직은 과거 ‘DT 추진본부’에서 시작해 디지털 전환(DT) 및 AI 기술 내재화를 이끌고 있습니다. 주요 업무로는 레거시 IT 관리, 데이터 구축 및 분석, 디지털 전환 프로젝트, 그리고 생성형 AI 프로젝트를 주도적으로 수행합니다. AIX에서 ‘X’는 Transformation을 의미하며, AI를 통해 기술, 시스템, 플랫폼, 교육 전환을 목표로 하고 있습니다. 또한, 전사 하둡 기반 데이터 시스템을 퍼블릭 클라우드로 전환하는 등의 디지털 전환 작업을 수행하였고, 빠르게 변화하는 AI 기술 중 조직의 미션에 맞는 기술을 선별하고 도입하는 역할을 맡고 있습니다.

프로젝트 배경 및 목표

SK브로드밴드는 미디어 부문과 유선통신 부문에서 고객 니즈를 기반으로 콘텐츠를 다양화하고 적극적인 마케팅을 통해 서비스 경쟁력을 갖추고 있습니다. AIX Eng팀은 더 나은 고객 경험과 비즈니스 프로세스 최적화를 위해 사용자 추이 분석 모델 개발과 개인화된 추천 시스템을 개발 했습니다. 지속 가능하고 효과적인 프로젝트 수행을 위해 MLOps 시스템 구축이 필요했고, 특히 모델 학습 및 추천 파이프라인과 거버넌스에 중점을 둔 아키텍처가 요구되었습니다.

MLOps가 필요한 이유는 다음과 같았습니다.

  1. SK브로드밴드의 대량 데이터는 데이터 레이크에서 저장 및 전처리 됩니다. 그러나 모델에서 데이터를 수집하고 처리, 통합하는 과정이 수작업으로 진행되었으며, 이는 모델 개발과 배포 시간을 지연시킬 수 있는 위험 요소였습니다.
  2. 실시간 모델 성능 모니터링도 중요한 과제였습니다. 모델이 실제 환경에서 어떻게 작동하는지 지속적으로 추적하고 평가할 수 있어야 하며, ML 워크로드의 증가 시 인프라가 확장성 있게 대응해야 했습니다.
  3. 모델 품질 관리와 버전 관리 측면에서도 개선이 필요했습니다. 여러 데이터 과학자들이 개발한 모델들의 일관성을 유지하고, 각 모델의 버전을 체계적으로 관리해야 했습니다.

이러한 요구사항에 의해 SK브로드밴드는 종합적인 MLOps 시스템 구축을 시작했습니다. 데이터 수집부터 모델 배포까지의 전 과정을 자동화하고, 모델과 예측 내용을 현업에 적시에 제공할 수 있는 플랫폼 구축이 핵심 목표였습니다. 또한, 엄격한 모델 버전 관리와 재현성 확보, 실시간 및 배치 추론 파이프라인 구축, 그리고 자동화된 모델 성능 모니터링 시스템 구현도 주요 목표였습니다.

Amazon SageMaker를 활용한 파이프라인 구축과 거버넌스 구현

SK브로드밴드는 MLOps 시스템의 빠른 구축과 효율적인 운영을 위해 Amazon SageMaker를 핵심 플랫폼으로 선택했습니다. 또한 워크플로우 관리를 위해 Apache Airflow를 자체적으로 구축하여 운영하기로 결정했습니다. 이러한 선택은 SK브로드밴드의 특수한 요구사항을 충족시키면서도 클라우드의 장점을 최대한 활용할 수 있는 방안이었습니다.

Amazon SageMaker 선정 이유

  • AI/ML 모델 개발 전반에 걸친 종합적인 다양한 기능을 제공
  • 컨테이너 기반 서비스로 알고리즘의 일관성 보장 및 유연한 커스터마이징 가능
  • 사용한 리소스에 대해서만 학습 비용을 지불하는 비용 효율적인 모델
  • Amazon SageMaker SDK를 통한 다양한 커스터마이징 옵션

Apache Airflow 자체 구축 이유

  • 유연성과 커스터마이징
    • 자체 구축을 통해 SK브로드밴드의 특수한 요구사항에 맞춰 Airflow를 최적화할 수 있었습니다.
    • ML 워크로드 지원을 위해 필요한 Executor들의 사용이 가능했습니다.
  • 자유로운 버전 관리
    • AWS MWAA는 Airflow 버전 업데이트가 제한적인 반면, 자체 구축을 통해 최신 버전의 Airflow를 신속하게 도입할 수 있었습니다.

주요 기술 스택

SK브로드밴드의 모델 거버넌스를 중심으로 한 MLOps 아키텍처

그림 1. SK 브로드밴드의 MLOps 아키텍처

SK브로드밴드는 SageMaker를 중심으로 ML 라이프사이클의 각 단계를 통합하면서도, Apache Airflow를 통해 유연한 워크플로우 관리를 가능하게 한 MLOps 아키텍처를 설계했습니다. 핵심 구성요소는 다음과 같습니다.

  1. 데이터 레이크: Amazon Simple Storage Service(Amazon S3)를 사용해 원본 데이터와 중간 처리 결과를 저장
  2. 모델 개발 환경: SageMaker Notebooks 탐색적 데이터 분석 및 모델 프로토타이핑
  3. 모델 훈련 평가: SageMaker Training Jobs와 Processing Jobs 활용
  4. 모델 레지스트리: SageMaker Model Registry로 모델 버전 관리
  5. 모델 배포: SageMaker Endpoints(실시간 추론)와 Batch Transform(배치 추론) 사용
  6. 워크플로우 관리: 자체 관리형 Apache Airflow로 전체 파이프라인 오케스트레이션
  7. 모니터링: Amazon CloudWatch로 모델 및 인프라 모니터링

구현 과정 및 주요 기술

모델 파이프라인 구축

SK브로드밴드의 모델 파이프라인은 데이터 전처리부터 모델 배포까지 전 과정을 자동화하여 효율성을 극대화했습니다. 이 파이프라인은 크게 학습 파이프라인과 추론 파이프라인으로 나뉩니다. 각 단계의 입출력은 Amazon S3를 기반으로 관리됩니다.

학습 파이프라인 (Model Training Pipeline)

학습 데이터로는 고객의 서비스 이용 기록, 상품 가입 이력 내용 등 수백만 개의 다양한 고객 인터랙션 데이터를 활용했습니다.

  • 피처 추출: Feature Store에서 Amazon Athena/SQL을 이용해 Feature를 추출하고 S3에 저장합니다. 이를 통해 일관된 데이터 관리와 재사용성을 확보했습니다.
  • 전처리: SageMaker Processing Jobs를 활용하여 원시 데이터를 정제하고 피처를 추출합니다. 결측치 처리, encoding, scaling 등 Feature별 Transform을 적용합니다.
  • 모델 학습: SageMaker Training Jobs를 통해 모델 학습을 수행합니다. 현재는 scikit-learn 기반 컨테이너를 지원하며, 필요에 따라 지원 대상을 확대할 예정입니다.
  • 모델 평가: 학습된 모델의 성능을 자동으로 평가하고 메트릭을 기록합니다. 모델/비즈니스 별로 평가 항목과 평가 여부를 유연하게 결정할 수 있습니다.

모델 학습은 파이프라인에 의한 자동 훈련 작업으로 이루어지지만, 필요에 따라 모델러가 직접 작업할 수 있도록 Python Launcher 기반으로 수동 훈련 작업도 구현하였습니다.

그림 2. 모델 파이프라인 – 학습

추론 파이프라인 (Batch Transformation Pipeline)

  • 피처 추출: 학습 파이프라인과 유사하게 Feature Store에서 추론용 Feature를 추출합니다.
  • 전처리: 학습 과정에서 생성된 feature transformer를 재사용하여 일관성을 유지합니다.
  • 배치 변환: SageMaker Batch Transform을 사용하여 대규모 데이터에 대한 배치 추론을 수행합니다.
  • 캠페인 연동: 추론 결과를 campaign 시스템과 연동하고, 필요한 후속 작업을 수행합니다

그림 3. 모델 파이프라인 – 배치 추론

모델 거버넌스 체계 확립

SK브로드밴드는 SageMaker Model Registry를 중심으로 강력한 모델 거버넌스 체계를 구축했습니다. 이 체계의 핵심 요소는 다음과 같습니다:

패키지 그룹 관리: 각 비즈니스 유스케이스별로 모델 패키지 그룹을 생성하여 관련 모델들을 체계적으로 관리합니다. 실제 물리적인 훈련의 결과(Model Artifact)는 Model Package 단위로 관리합니다.

그림 4. 모델 거버넌스 체계 – 패키지 그룹

패키지-트레이닝 관계 정립: 모든 모델 패키지는 반드시 특정 Training Job과 연결되어 추적성을 보장합니다. Training Job은 수동 및 자동으로 생성되어 MLOps 거버넌스 하에서 관리됩니다.

그림 5. 모델 거버넌스 체계 – 패키지와 트레이닝 관계

모델 파이프라인 자동화: 전처리부터 학습, 패키지 생성까지 전 과정을 자동화하여 일관성을 유지합니다. 모델이 Batch Transform 작업을 주기적으로 수행하되, Feature Processing 이 필요한 패키지가 등록된다면 메트릭을 기반으로 자동 혹은 수동으로 프로세싱을 진행합니다. 새로 학습되었거나 재학습된 패키지는 Processing 전에 담당자의 승인을 거치게 됩니다.

그림 6. 모델 거버넌스 체계 – 파이프라인 자동화

수동 등록 지원: 필요 시 사용자가 Web 화면을 통해 직접 모델을 등록할 수 있는 유연성을 제공합니다. 이후 배치 추론은 자동 파이프라인과 동일하게 수행됩니다.

그림 7. 모델 거버넌스 체계 – 수동 프로세스

이러한 포괄적인 거버넌스 체계를 통해 SK브로드밴드는 AI/ML 모델의 품질과 신뢰성을 크게 향상시킬 수 있었습니다. 모델 개발부터 배포, 모니터링에 이르는 전 과정에서 일관성과 투명성이 확보되어, 비즈니스 요구사항에 더욱 신속하고 정확하게 대응할 수 있게 되었습니다.

결과

Amazon SageMaker의 다양한 기능을 활용하여 SK브로드밴드는 효율적인 MLOps 시스템을 구축할 수 있었습니다. SageMaker Processing Jobs를 통해 데이터 전처리 과정을 자동화하고, Training Jobs로 모델 학습 프로세스를 최적화했습니다. 특히 SageMaker Model Registry를 도입하여 모델 버전 관리와 승인 프로세스를 체계화한 것이 프로젝트의 핵심 성과 중 하나였습니다.

SK브로드밴드의 MLOps 구축 프로젝트는 여러 측면에서 주목할 만한 성과를 거두었습니다. 모델 개발 및 배포에 소요되는 시간이 대폭 감소하여 데이터 과학자들의 업무 효율성도 크게 개선되었고 더 많은 시간을 혁신적인 모델 개발에 투자할 수 있게 되었습니다. 또한, 실시간 모델 성능 모니터링 체계 구축으로 이슈 발견 및 대응 시간이 크게 단축되었으며 이는 SK 브로드밴드의 전반적인 서비스 품질 유지에 큰 기여를 할 것으로 기대를 하고 있습니다.

MLOps 구현을 위한 인프라 지식과 AWS 서비스에 대한 선수 지식이 많지 않아도 Amazon SageMaker와 Apache Airflow를 활용하여 모델 개발부터 배포 환경 구성, MLOps 시스템 구축까지 효과적으로 수행할 수 있었다는 점에서 이 프로젝트는 매우 의미 있는 결과를 얻었다고 볼 수 있습니다. 이를 통해 SK브로드밴드는 AI/ML 기술을 더욱 효과적으로 활용하여 고객 경험을 개선하고 비즈니스 가치를 창출할 수 있는 기반을 마련하게 되었습니다.

향후 계획

MLOps 아키텍처 리뷰 후 전용 계정으로 워크로드를 마이그레이션하고 파이프라인 구성과 배치까지 2개월 정도 소요되었습니다. 다음 목표는 MLOps 고도화 입니다. 하루가 다르게 발전하고 있는 모델의 성능을 측정하고 고객 니즈를 섬세하게 충족하기 위해서 모델 모니터링을 강화할 예정입니다. 고객 사용 추이와 개인화된 추천의 성능을 점검하고 이를 SK브로드밴드의 비즈니스 프로세스에 확장 접목을 계획하고 있습니다.

마무리

SK브로드밴드의 MLOps 구축 사례는 Amazon SageMaker와 자체 관리형 Apache Airflow의 효과적인 결합을 보여주는 좋은 예시입니다. 이 접근 방식은 “체계적인 모델 관리와 훈련, 배포 자동화” 라는 고유한 SK브로드밴드의 요구사항을 충족시키면서도 SageMaker 서비스의 이점을 최대한 활용할 수 있음을 입증했습니다.

이 프로젝트를 통해 SK브로드밴드는 당초 설정한 목표들을 체계적으로 달성해 나갔습니다. 데이터 파이프라인 구축, 피처 스토어 구현, 모델 파이프라인 구축, 그리고 모델 활용 체계 확립에 이르기까지 전 과정을 체계화하고 자동화했습니다. 특히 주목할 만한 점은 표준화된 모델 개발 환경을 구축하고, SageMaker Model Registry를 사용해 체계적인 모델 거버넌스를 실현한 것입니다.

이러한 성과들을 통해 SK브로드밴드는 AI/ML 역량을 한층 강화했으며, 고객에게 더 나은 서비스를 제공할 수 있는 견고한 기반을 마련했습니다. 앞으로 SK브로드밴드는 이 MLOps 시스템을 지속적으로 개선하고 확장하여, 더 많은 비즈니스 영역에서 AI/ML의 가치를 실현할 계획입니다. 이 사례가 다른 기업들에게도 MLOps 구축의 좋은 참고 사례가 되었으면 합니다.

Kyungik Yun

Kyungik Yun

윤경익 매니저는 SK브로드밴드의 AIX Eng팀에서 ML 모델 학습 및 활용을 위한 자동화된 ML 파이프라인과 학습 및 추론 데이터 공급을 위한 Feature Store를 구축, 운영하는 역할을 맡고 있습니다.

Dongwon Jeon

Dongwon Jeon

전동원 Data Engineer는 SK브로드밴드의 데이터를 수집 및 분석하는 파이프라인을 구성하며, 데이터 분석을 지원하는 역할을 하고 있습니다. 현재는 MLOps 파이프라인에 Feature 생성 및 관리를 담당하고 있습니다.

Sanghwa Na

Sanghwa Na

나상화 솔루션즈 아키텍트는 AI/ML을 포함한 다양한 영역에서 고객이 최적의 아키텍처를 구성하도록 돕고 고객의 비즈니스 성과를 달성하도록 AWS 클라우드 전환을 지원하는 업무를 담당하고 있습니다.

Bailey (Sohyeon) Cho

Bailey (Sohyeon) Cho

조소현 솔루션즈 아키텍트는 AWS 클라우드를 활용하여 고객이 원하는 비즈니스 성과를 달성할 수 있도록 안전하고 확장 가능한 아키텍처를 구성하는 역할을 하고 있습니다.