Q: 강화 학습이란 무엇입니까?

강화 학습(RL)은 최적의 결과를 얻기 위한 결정을 내리도록 소프트웨어를 훈련시키는 기계 학습(ML) 기법으로 인간이 목표를 달성하기 위해 사용하는 시행착오 학습 과정을 모방합니다. 목표를 달성하기 위해 작동하는 소프트웨어 작업은 강화되지만 목표를 저해하는 작업은 무시됩니다. 

RL 알고리즘은 데이터를 처리할 때 상벌 패러다임을 사용합니다. RL 알고리즘은 각 작업의 피드백을 통해 배우고 최종 결과를 달성하기 위한 최상의 처리 경로를 스스로 발견합니다. 이 알고리즘은 만족도를 지연시킬 수도 있습니다. 전반적으로 최선의 전략을 세우려면 단기적인 희생이 필요할 수 있으므로 알고리즘이 발견한 최선의 접근법에는 벌을 받거나 도중에 철회하는 것이 포함될 수 있습니다. RL은 보이지 않는 환경에서 최적의 결과를 달성하도록 인공 지능(AI) 시스템을 지원하는 강력한 방법입니다.

강화형 기계 학습의 이점은 무엇인가요?

강화형 기계 학습(RL)을 사용하면 많은 이점이 있습니다. 다음은 주목할 만한 세 가지 이점입니다.

복잡한 환경에서 탁월

RL 알고리즘은 규칙과 종속 항목이 많은 복잡한 환경에서 사용할 수 있습니다. 같은 환경에서 인간은 환경에 대한 뛰어난 지식을 가지고 있더라도 최상의 경로를 결정하지 못할 수도 있습니다. 대신 모델이 없는 RL 알고리즘은 계속 바뀌는 환경에 빠르게 적응하고 결과를 최적화하기 위한 새로운 전략을 찾습니다.

인적 상호 작용 덜 필요

기존 ML 알고리즘에서는 알고리즘을 지시하기 위해 사람이 데이터 쌍에 레이블을 지정해야 합니다. RL 알고리즘을 사용할 때는 이 작업이 필요하지 않습니다. RL 알고리즘은 스스로 학습합니다. 동시에 인간의 피드백을 통합하는 메커니즘을 제공하여 시스템이 인간의 선호도, 전문 지식 및 수정 사항에 적응할 수 있도록 합니다.

장기 목표를 위한 최적화

RL은 기본적으로 장기적인 보상 극대화에 중점을 두므로 작업이 장기간의 결과를 초래하는 시나리오에 적합합니다. 지연된 보상을 통해 배울 수 있기 때문에 모든 단계에서 피드백이 즉시 제공되지 않는 실제 상황에 특히 적합합니다.

예를 들어, 에너지 소비 또는 저장에 대한 결정은 장기적인 결과를 초래할 수 있습니다. 장기적인 에너지 효율성과 비용을 최적화하는 데 RL을 사용할 수 있습니다. 적절한 아키텍처를 사용하면 RL 에이전트는 유사하지만 동일하지 않은 작업 전반에 걸쳐 학습된 전략을 일반화할 수도 있습니다.

강화형 기계 학습의 사용 사례로 무엇이 있나요?

다양한 실제 사용 사례에 강화형 기계 학습(RL)을 적용할 수 있습니다. 다음은 몇 가지 예입니다.

마케팅 개인화

추천 시스템과 같은 애플리케이션에서 RL은 상호 작용을 기반으로 개별 사용자를 위한 제안을 사용자 지정할 수 있습니다. 이를 통해 보다 개인화된 경험을 제공할 수 있습니다. 예를 들어, 애플리케이션은 일부 인구 통계 정보를 기반으로 사용자에게 광고를 표시할 수 있습니다. 각 광고 상호 작용을 통해 애플리케이션은 제품 판매를 최적화하기 위해 사용자에게 표시할 광고를 학습합니다.

최적화 과제

기존의 최적화 방법은 특정 기준에 따라 가능한 솔루션을 평가하고 비교하여 문제를 해결합니다. 이와 대조적으로 RL은 상호 작용을 통한 학습을 도입하여 시간이 지남에 따라 최상 또는 그에 가까운 솔루션을 찾습니다.

예를 들어, 클라우드 지출 최적화 시스템은 RL을 사용하여 변동하는 리소스 요구 사항에 맞춰 조정하고 최적의 인스턴스 유형, 수량 및 구성을 선택합니다. 현재 및 사용 가능한 클라우드 인프라, 지출 및 활용도와 같은 요소를 기반으로 결정을 내립니다.

재무 예측

금융 시장의 역동성은 시간이 지남에 따라 변화하는 통계적 속성으로 인해 복잡합니다. RL 알고리즘은 거래 비용을 고려하고 시장 변화에 적응하여 장기 수익을 최적화할 수 있습니다.

예를 들어, 알고리즘은 작업을 테스트하고 관련 보상을 기록하기 전에 주식 시장의 규칙과 패턴을 관찰할 수 있습니다. 동적으로 가치 함수를 생성하고 수익을 극대화하기 위한 전략을 개발합니다.

강화형 기계 학습은 어떻게 작동하나요?

강화형 기계 학습(RL) 알고리즘의 학습 과정은 행동 심리학 분야의 동물 및 인간 강화 학습과 유사합니다. 예를 들어, 아이는 형제자매를 돕거나 청소를 하면 부모의 칭찬을 받지만 장난감을 던지거나 소리를 지르면 부정적인 반응을 받는다는 것을 알게 될 수 있습니다. 곧, 아이는 어떤 활동 조합이 최종 보상으로 이어지는지 알게 됩니다.

RL 알고리즘은 유사한 학습 프로세스를 모방합니다. 최종 보상 결과를 달성하기 위해 관련된 부정적인 가치와 긍정적인 가치를 학습하기 위해 다양한 활동을 시도합니다.

주요 개념

강화형 기계 학습에서는 다음과 같은 몇 가지 주요 개념을 숙지해야 합니다.

  • 에이전트는 ML 알고리즘(또는 자율 시스템)입니다.
  • 환경은 변수, 경계값, 규칙, 유효한 행동과 같은 속성을 가진 적응형 문제 공간입니다.
  • 작업은 RL 에이전트가 환경을 탐색하기 위해 수행하는 단계입니다.
  • 상태는 특정 시점의 환경입니다.
  • 보상은 행동을 취한 것에 대한 양수, 음수 또는 0의 가치입니다. 즉, 보상 또는 처벌입니다.
  • 누적 보상은 모든 보상의 합계 또는 최종 가치입니다.

알고리즘 기초

강화형 기계 학습은 개별 타임스텝을 사용하는 의사 결정의 수학적 모델링인 마르코프 의사 결정 프로세스를 기반으로 합니다. 에이전트는 모든 단계에서 새로운 환경 상태를 초래하는 새로운 작업을 수행합니다. 마찬가지로 현재 상태는 이전 작업의 순서에 기인합니다.

에이전트는 환경 전반에 걸친 시행착오를 거쳐 일련의 if-then 규칙 또는 정책을 구축합니다. 정책은 최적의 누적 보상을 위해 다음에 취해야 할 조치를 결정하는 데 도움이 됩니다. 에이전트는 또한 새로운 상태-조치 보상을 학습하기 위해 추가 환경 탐색을 하거나 특정 주에서 알려진 고수익 조치를 선택해야 합니다. 이를 탐사-개발 트레이드오프라고 합니다.

강화형 기계 학습 알고리즘에는 어떤 유형이 있나요?

Q 러닝, 정책 경사 방법, 몬테 카를로 방법, 시간차 학습 등의 다양한 알고리즘이 강화형 기계 학습(RL)에 사용됩니다. 심층 RL은 강화형 기계 학습에 심층 신경망을 적용한 것입니다. 심층 RL 알고리즘의 한 예로 TRPO(Trust Region Policy Optimization)가 있습니다.

이러한 알고리즘은 모두 크게 두 가지 범주로 나눌 수 있습니다.

모델 기반 RL

모델 기반 RL은 일반적으로 환경이 잘 정의되어 있고 바뀌지 않으며 실제 환경 테스트가 어려운 경우 사용됩니다.

에이전트는 먼저 환경의 내부 표현(모델)을 구축합니다. 그리고 다음 프로세스를 사용하여 이 모델을 빌드합니다.

  1. 환경 내에서 작업을 수행하고 새로운 상태와 보상 값을 기록합니다
  2. 작업-상태 전환을 보상 값과 연결합니다.

모델이 완성되면 에이전트는 최적의 누적 보상 확률을 기반으로 작업 시퀀스를 시뮬레이션합니다. 그런 다음 작업 시퀀스 자체에 값을 추가로 할당합니다. 따라서 에이전트는 원하는 최종 목표를 달성하기 위해 환경 내에서 다양한 전략을 개발합니다. 

예제

로봇이 새 건물을 탐색하여 특정 방에 도달하는 방법을 학습한다고 가정해 보겠습니다. 처음에 로봇은 자유롭게 탐색하고 건물의 내부 모델 또는 맵을 만듭니다. 예를 들어, 정문에서 10미터 전진하면 엘리베이터가 있음을 학습할 수 있습니다. 맵을 만든 후에는 건물 내에서 자주 방문하는 여러 위치 간의 최단 경로 시퀀스를 만들 수 있습니다.

모델이 없는 RL 

모델이 없는 RL은 환경이 크고 복잡하며 쉽게 설명할 수 없는 경우에 사용하는 것이 가장 좋습니다. 또한 환경이 알려지지 않고 바뀌고 있으며 환경 기반 테스트에 큰 단점이 없는 경우에도 이상적입니다.

에이전트는 환경과 그 역학의 내부 모델을 만들지 않습니다. 대신 환경 내에서 시행착오 방식을 사용합니다. 상태-작업 쌍과 상태-작업 쌍의 시퀀스를 점수화하고 기록하여 정책을 개발합니다. 

예제

자율 주행 자동차가 도시 교통을 탐색해야 한다고 가정해 보겠습니다. 도로, 교통 패턴, 보행자 행동 및 기타 수많은 요인으로 인해 환경이 매우 역동적이고 복잡해질 수 있습니다. AI 팀은 초기 단계에서 시뮬레이션된 환경에서 차량을 훈련합니다. 차량은 현재 상태에 따라 작업을 수행하고 상벌을 받습니다.

시간이 지남에 따라 차량은 다양한 가상 시나리오에서 수백만 킬로미터를 주행하여 전체 교통 역학을 명시적으로 모델링하지 않고도 각 상태에 가장 적합한 작업을 학습합니다. 실제 세계에 도입되면 차량은 학습된 정책을 사용하지만 새로운 데이터로 정책을 계속 개선합니다.

강화형 기계 학습, 지도 기계 학습 및 비지도 기계 학습의 차이점은 무엇일까요?

지도 학습, 비지도 학습, 강화형 기계 학습(RL)은 모두 AI 분야의 ML 알고리즘이지만 세 가지 사이에는 차이가 있습니다.

지도 학습과 비지도 학습에 대해 읽어보기 »

강화형 기계 학습과 지도 학습 비교

지도 학습에서는 입력과 예상 관련 출력을 모두 정의합니다. 예를 들어, 개 또는 고양이라는 레이블이 지정된 이미지 세트를 제공하면 알고리즘이 새로운 동물 이미지를 개나 고양이로 식별할 것으로 예상됩니다.

지도 학습 알고리즘은 입력과 출력 쌍 간의 패턴과 관계를 학습합니다. 그런 다음 새로운 입력 데이터를 기반으로 결과를 예측합니다. 훈련 데이터 세트의 각 데이터 레코드에 출력으로 레이블을 지정하려면 감독자(일반적으로 사람)가 필요합니다. 

이와 대조적으로 RL은 원하는 결과의 형태로 잘 정의된 최종 목표를 가지고 있지만 관련 데이터에 미리 레이블을 지정할 관리자가 없습니다. 훈련 중 RL은 알려진 출력으로 입력을 매핑하는 대신 가능한 결과로 입력을 매핑합니다. 바람직한 행동에 대한 보상을 통해 최상의 결과에 가중치를 부여합니다. 

강화형 기계 학습과 비지도 학습 비교 

비지도 학습 알고리즘은 훈련 과정에서 지정된 출력 없이 입력을 받습니다. 통계적 수단을 사용하여 데이터 내에서 숨겨진 패턴과 관계를 찾습니다. 예를 들어, 문서 세트를 제공하면 알고리즘은 이를 텍스트의 단어를 기반으로 식별하는 범주로 그룹화할 수 있습니다. 특정 결과를 얻지 못하고 범위 내의 결과만 얻습니다. 

반대로 RL은 미리 정해진 최종 목표를 가지고 있습니다. 탐색적 접근 방식을 취하지만 최종 목표에 도달할 확률을 높이기 위해 탐색을 지속적으로 검증하고 개선합니다. 매우 특정한 결과에 도달하기 위해 스스로 학습할 수 있습니다.

강화형 기계 학습의 문제점은 무엇인가요?

강화형 기계 학습(RL) 애플리케이션은 잠재적으로 세상을 바꿀 수 있지만 이러한 알고리즘을 배포하는 것은 쉽지 않을 수 있습니다. 

실용성

실제 상벌 시스템을 실험하는 것은 실용적이지 않을 수 있습니다. 예를 들어, 시뮬레이터에서 먼저 테스트하지 않고 실제 세계에서 드론을 테스트하면 상당수의 항공기가 파손될 수 있습니다. 실제 환경은 자주 많이 바뀌며 경고는 제한적입니다. 이로 인해 알고리즘이 실제로 효과를 발휘하기 더 어려울 수 있습니다.

해석 가능성

다른 과학 분야와 마찬가지로 데이터 과학도 결정적인 연구와 조사 결과를 검토하여 표준과 절차를 수립합니다. 데이터 사이언티스트는 증명 가능성과 복제를 위해 특정 결론에 어떻게 도달했는지 아는 것을 선호합니다.

복잡한 RL 알고리즘을 사용하면 특정 단계 시퀀스가 수행된 이유를 확인하기 어려울 수 있습니다. 시퀀스에서 어떤 작업이 최적의 최종 결과로 이어졌을까요? 이는 추론하기 어려울 수 있으며, 이로 인해 구현 문제가 발생합니다.

AWS는 강화형 기계 학습을 어떻게 지원하나요?

Amazon Web Services(AWS)는 실제 애플리케이션을 위한 강화형 기계 학습(RL) 알고리즘을 개발, 훈련 및 배포하는 데 도움이 되는 다양한 제품을 제공합니다.

Amazon SageMaker를 사용하면 개발자와 데이터 사이언티스트가 확장 가능한 RL 모델을 쉽고 빠르게 개발할 수 있습니다. 딥 러닝 프레임워크(예: TensorFlow 또는 Apache MXNet), RL 툴킷(예: RL Coach 또는 RLlib) 및 환경을 결합하여 실제 시나리오를 모방하세요. 이를 사용하여 모델을 생성하고 테스트할 수 있습니다.

AWS RoboMaker를 사용하면 개발자가 인프라 요구 사항 없이 로보틱스용 RL 알고리즘으로 시뮬레이션을 실행, 확장 및 자동화할 수 있습니다.

1/18 크기의 완전 자율 주행 경주용 자동차인 AWS DeepRacer를 직접 경험해 보세요. RL 모델 및 신경망 구성 훈련에 사용할 수 있는 완전히 구성된 클라우드 환경을 자랑합니다.

지금 계정을 생성하여 AWS에서 강화형 기계 학습을 시작하세요.

AWS 활용 다음 단계