전이 학습이란 무엇인가요?
전이 학습(TL)은 한 작업에 대해 사전 학습된 모델을 새로운 관련 작업에 맞게 미세 조정하는 기계 학습(ML) 기법입니다. 새로운 ML 모델을 학습하는 것은 대량의 데이터, 컴퓨팅 성능, 프로덕션 준비가 완료되기 전에 여러 번의 반복이 필요한 시간이 많이 걸리고 집약적인 프로세스입니다. 대신 조직에서는 TL을 사용하여 새 데이터가 포함된 관련 작업에 대해 기존 모델을 재교육합니다. 예를 들어 기계 학습 모델이 개의 이미지를 식별할 수 있다면 개와 고양이 간의 특징 차이를 강조하는 더 작은 이미지 세트를 사용하여 고양이를 식별하도록 훈련할 수 있습니다.
전이 학습의 이점은 무엇인가요?
TL은 ML 애플리케이션을 만드는 연구자에게 다음과 같은 몇 가지 이점을 제공합니다.
향상된 효율성
ML 모델을 학습하려면 지식을 쌓고 패턴을 식별하는 데 시간이 걸립니다. 또한 대규모 데이터 세트가 필요하고 계산 비용도 많이 듭니다. TL에서 사전 훈련된 모델은 작업, 특성, 가중치 및 기능에 대한 기본적인 지식을 유지하므로 새로운 작업에 더 빠르게 적응할 수 있습니다. 훨씬 작은 데이터 세트와 더 적은 리소스를 사용하면서도 더 나은 결과를 얻을 수 있습니다.
접근성 향상
딥러닝 신경망을 구축하려면 대량의 데이터 볼륨, 리소스, 컴퓨팅 파워, 시간이 필요합니다. TL은 이러한 개발 장벽을 극복하여 조직이 맞춤형 사용 사례에 맞게 ML을 채택할 수 있도록 합니다. 적은 비용으로 기존 모델을 요구 사항에 맞게 조정할 수 있습니다. 예를 들어 사전 훈련된 이미지 인식 모델을 사용하면 최소한의 조정으로 의료 영상 분석, 환경 모니터링 또는 안면 인식을 위한 모델을 만들 수 있습니다.
성능 개선
TL을 통해 개발된 모델은 종종 다양하고 까다로운 환경에서 뛰어난 견고성을 보여줍니다. 초기 훈련에서 다양한 시나리오에 노출되었기 때문에 실제 변동성과 노이즈를 더 잘 처리할 수 있습니다. 더 나은 결과를 제공하고 예측할 수 없는 조건에 더 유연하게 적응합니다.
다른 전이 학습 전략에는 무엇이 있나요?
TL을 용이하게 하기 위해 사용하는 전략은 구축 중인 모델의 영역, 완료해야 하는 작업, 훈련 데이터의 가용성에 따라 달라집니다.
변환적 전이 학습
변환적 전이 학습은 특정 소스 도메인에서 다르지만 관련된 대상 도메인으로 지식을 이전하는 것을 포함하며, 주요 초점은 대상 도메인입니다. 대상 도메인에서 레이블이 지정된 데이터가 거의 또는 전혀 없는 경우에 특히 유용합니다.
변환적 전이 학습은 이전에 획득한 지식을 사용하여 대상 데이터를 예측하도록 모델에 요청합니다. 대상 데이터가 소스 데이터와 수학적으로 유사하기 때문에 모델은 패턴을 찾고 더 빠르게 수행합니다.
예를 들어 제품 리뷰를 기반으로 훈련된 감정 분석 모델을 영화 리뷰를 분석하는 데 적용하는 경우를 생각할 수 있습니다. 소스 도메인(제품 리뷰)과 대상 도메인(영화 리뷰)은 컨텍스트와 세부 사항이 다르지만 구조와 언어 사용 측면에서는 유사합니다. 이 모델은 제품 영역의 감정에 대한 이해 사항을 영화 영역에 적용하는 방법을 빠르게 학습합니다.
귀납적 전이 학습
귀납적 전이 학습은 소스 영역과 대상 도메인은 동일하지만 모델이 완료해야 하는 과제가 서로 다른 경우입니다. 사전 훈련된 모델은 이미 소스 데이터에 익숙하며 새 함수에 대해 더 빠르게 학습합니다.
귀납적 전이 학습의 예제로는 자연어 처리(NLP)가 있습니다. 모델은 대규모 텍스트 집합에 대해 사전 훈련된 후 감성 분석과 같은 특정 기능에 대해 귀납적 전이 학습을 사용하여 미세 조정됩니다. 마찬가지로, VGG와 같은 컴퓨터 비전 모델은 대규모 이미지 데이터 세트에 대해 사전 훈련된 후 객체 감지 기능을 개발하기 위해 미세 조정됩니다.
비지도 전이 학습
비지도 전이 학습은 새로운 능력을 개발하기 위해 귀납적 전이 학습과 유사한 전략을 사용합니다. 그러나 소스 도메인과 대상 도메인 모두에 레이블이 지정되지 않은 데이터만 있는 경우에는 이러한 형태의 전이 학습을 사용합니다.
모델은 레이블이 지정되지 않은 데이터의 일반적인 특징을 학습하여 대상 작업을 수행하라는 요청을 받았을 때 더 정확하게 일반화합니다. 이 방법은 레이블이 지정된 소스 데이터를 얻는 것이 어렵거나 비용이 많이 드는 경우에 유용합니다.
예를 들어 교통 이미지에서 다양한 유형의 오토바이를 식별하는 작업을 생각할 수 있습니다. 처음에는 레이블이 지정되지 않은 대량의 차량 이미지를 기반으로 모델을 훈련시킵니다. 이 경우 모델은 자동차, 버스, 오토바이와 같은 다양한 유형의 차량 간의 유사점과 구별되는 특징을 독립적으로 결정합니다. 다음으로, 모델에 작고 구체적인 오토바이 이미지 세트가 도입됩니다. 모델 성능이 이전과 비교하여 크게 개선되었습니다.
전이 학습의 단계에는 무엇이 있나요?
새로운 작업을 위해 기계 학습 모델을 미세 조정할 때는 세 가지 주요 단계가 있습니다.
사전 훈련된 모델 선택
먼저 관련 작업에 대한 사전 지식이나 기술을 갖춘 사전 훈련된 모델을 선택합니다. 적합한 모델을 선택하는 데 유용한 컨텍스트는 각 모델의 소스 작업을 결정하는 것입니다. 모델이 수행한 원래 작업을 이해하면 새 작업으로 더 효과적으로 전환할 수 있는 작업을 찾을 수 있습니다.
사전 훈련된 모델 구성
소스 모델을 선택한 후 관련 작업을 완료하기 위해 모델에 지식을 전달하도록 구성할 수 있습니다. 이 작업을 수행하는 두 가지 주요 방법이 있습니다.
사전 훈련된 계층 동결
계층은 신경망의 구성 요소입니다. 각 계층은 일련의 뉴런으로 구성되며 입력 데이터에 대해 특정 변환을 수행합니다. 가중치는 네트워크가 의사 결정에 사용하는 파라미터입니다. 처음에는 랜덤 값으로 설정되며, 모델이 데이터로부터 학습함에 따라 훈련 과정에서 가중치가 조정됩니다.
사전 훈련된 계층의 가중치를 동결하면 딥 러닝 모델이 원본 작업에서 얻은 지식을 보존하면서 해당 계층을 고정된 상태로 유지할 수 있습니다.
최종 계층 제거
일부 사용 사례에서는 사전 훈련된 모델의 최종 계층을 제거할 수도 있습니다. 대부분의 ML 아키텍처에서 마지막 계층은 작업별로 다릅니다. 이러한 최종 계층을 제거하면 새 작업 요구 사항에 맞게 모델을 재구성하는 데 도움이 됩니다.
새 계층 소개
사전 훈련된 모델 위에 새로운 계층을 도입하면 새 작업의 특수 특성에 적응하는 데 도움이 됩니다. 새 계층은 모델을 새 요구 사항의 뉘앙스와 기능에 맞게 적응합니다.
대상 도메인에 대한 모델 훈련
대상 작업 데이터를 기반으로 모델을 훈련시켜 새 작업에 맞게 표준 출력을 개발합니다. 사전 훈련된 모델은 원하는 것과 다른 출력을 생성할 수 있습니다. 훈련 중에 모델의 성능을 모니터링하고 평가한 후 하이퍼파라미터 또는 기준 신경망 아키텍처를 조정하여 결과를 더욱 개선할 수 있습니다. 가중치와 달리 하이퍼파라미터는 데이터에서 학습되지 않습니다. 사전 설정되어 있으며 훈련 과정의 효율성과 효과를 결정하는 데 중요한 역할을 합니다. 예를 들어 정규화 파라미터 또는 모델의 학습률을 조정하여 대상 작업과 관련된 기능을 개선할 수 있습니다.
생성형 AI의 전이 학습 전략은 무엇인가요?
전이 학습 전략은 다양한 산업에서 생성형 AI를 채택하는 데 있어 매우 중요합니다. 조직은 수십억 개의 대규모 데이터 매개변수로 새 모델을 훈련할 필요 없이 기존 파운데이션 모델을 사용자 지정할 수 있습니다. 생성형 AI에서 사용되는 몇 가지 전이 학습 전략은 다음과 같습니다.
도메인 대립 훈련
도메인 대립 훈련에는 대상 도메인의 실제 데이터와 구별할 수 없는 데이터를 생성하도록 파운데이션 모델을 훈련하는 것이 포함됩니다. 이 기법은 일반적으로 생성형 대립 네트워크에서 볼 수 있듯이 실제 데이터와 생성된 데이터를 구별하려는 판별자 네트워크를 사용합니다. 생성기는 점점 더 사실적인 데이터를 생성하는 방법을 학습합니다.
예를 들어 이미지 생성에서는 사진을 기반으로 훈련된 모델을 조정하여 아트워크를 생성할 수 있습니다. 판별자를 사용하면 생성된 아트워크가 대상 도메인과 스타일이 일치하는지 확인할 수 있습니다.
교사-학생 학습
교사-학생 학습에는 더 작고 단순한 ‘학생’ 모델을 가르치는 더 크고 복잡한 ‘교사’ 모델이 포함됩니다. 학생 모델은 교사 모델의 행동을 모방하여 지식을 효과적으로 전달하는 방법을 배웁니다. 이는 리소스가 제한된 환경에서 대규모 생성 모델을 배포하는 데 유용합니다.
예를 들어, 대규모 언어 모델(LLM)은 언어 생성 기능을 전달하는 소규모 모델의 교사 역할을 할 수 있습니다. 이렇게 하면 더 작은 모델에서도 계산 오버헤드를 줄이면서 고품질 텍스트를 생성할 수 있습니다.
기능 분리
생성 모델의 기능 분리에는 콘텐츠 및 스타일과 같은 데이터의 다양한 측면을 별개의 표현으로 분리하는 작업이 포함됩니다. 이를 통해 모델은 전이 학습 프로세스에서 이러한 측면을 독립적으로 조작할 수 있습니다.
예를 들어, 얼굴 생성 작업에서 모델은 예술적 스타일과 얼굴 특징을 분리하는 방법을 학습할 수 있습니다. 이를 통해 피사체의 유사성을 유지하면서 다양한 예술적 스타일의 인물 사진을 생성할 수 있습니다.
교차 모드 전이 학습
교차 모드 전이 학습에는 텍스트와 이미지와 같은 다양한 양식 간에 지식을 전달하는 작업이 포함됩니다. 생성형 모델은 이러한 양식 전반에 적용할 수 있는 표현을 학습할 수 있습니다. 텍스트 설명과 해당 이미지를 기반으로 훈련한 모델은 새로운 텍스트 설명에서 관련 이미지를 생성하는 방법을 학습하여 텍스트에서 이미지로 이해할 내용을 효과적으로 전달할 수 있습니다.
제로샷 및 퓨샷 학습
제로샷 및 퓨샷 학습에서 생성형 모델은 학습 중에 예제가 거의 또는 전혀 없었던 작업을 수행하거나 데이터를 생성하도록 훈련됩니다. 이는 잘 일반화되는 풍부한 표현을 학습함으로써 달성됩니다. 예를 들어, 동물 이미지를 생성하도록 생성형 모델을 훈련할 수 있습니다. 퓨샷 학습을 사용하면 다른 동물의 특징을 이해하고 결합하여 거의 볼 수 없는 동물의 이미지를 생성할 수 있습니다.
AWS는 딥 러닝 요구 사항을 어떻게 지원하나요?
Amazon SageMaker JumpStart는 파운데이션 모델을 포함한 사전 훈련된 모델에 액세스하여 기사 요약 및 이미지 생성과 같은 작업을 수행할 수 있는 ML 허브입니다. 전이 학습을 사용하면 원래 모델을 훈련하는 데 드는 비용보다 더 낮은 훈련 비용으로 더 작은 데이터 세트에서 정확한 모델을 생성할 수 있습니다. 예를 들어 SageMaker JumpStart를 사용하면 다음을 수행할 수 있습니다.
- 사용 사례와 데이터에 따라 사전 훈련된 모델을 완전히 사용자 지정하여 프로덕션에 더 빠르게 배포할 수 있습니다.
- 사전 구축된 솔루션에 액세스하여 일반적인 사용 사례를 해결할 수 있습니다.
- ML 모델 및 노트북을 비롯한 ML 아티팩트를 조직 내에서 공유할 수 있습니다.
교차 모드 전이 학습 방식을 사용하는 경우 Amazon SageMaker Debugger를 사용하여 심각한 숨겨진 문제를 탐지할 수도 있습니다. 예를 들어, 모델 예측을 검사하여 실수를 찾아내고, 모델의 견고성을 검증하고, 이러한 견고성 중 어느 정도가 상속된 능력에서 비롯되는지 생각해 볼 수 있습니다. 또한 모델에 대한 입력과 전처리를 검증하여 실제 기대치를 충족할 수 있습니다.
지금 무료 계정을 만들어 AWS에서 전이 학습을 시작하세요.