Amazon Web Services 한국 블로그
Amazon Bedrock용 지식 기반, 추가 데이터 커넥터 지원 (미리 보기)
파운데이션 모델(FM)과 에이전트는 Amazon Bedrock용 지식 기반을 사용하여 회사의 프라이빗 데이터 소스에서 검색 증강 생성(RAG)을 위한 컨텍스트 정보를 검색할 수 있습니다. RAG는 FM이 보다 관련성 있고 정확하며 맞춤화된 응답을 제공할 수 있도록 도와줍니다.
지난 몇 달 동안 AWS는 임베딩 모델, 벡터 스토어, FM을 지식 기반에 지속적으로 추가했습니다.
오늘 Amazon Simple Storage Service(S3) 외에도 이제 웹 도메인, Confluence, Salesforce 및 SharePoint를 데이터 소스로 RAG 애플리케이션에 연결하는 기능을 미리보기로 제공합니다.
웹 도메인, Confluence, Salesforce 및 SharePoint를 위한 새로운 데이터 소스 커넥터
웹 도메인을 포함하면 RAG 애플리케이션에 회사의 소셜 미디어 피드와 같은 공개 데이터에 대한 액세스 권한을 부여하여 사용자 입력에 대한 응답의 관련성, 적시성, 포괄성을 높일 수 있습니다. 이제 새 커넥터를 사용하여 Confluence, Salesforce 및 SharePoint에 있는 기존 회사 데이터 소스를 RAG 애플리케이션에 추가할 수 있습니다.
실제 작동 방식을 살펴보도록 하겠습니다. 다음 예제에서는 웹 크롤러를 사용하여 웹 도메인을 추가하고 Confluence를 데이터 소스로 지식 기반과 연결해 보겠습니다. Salesforce 및 SharePoint를 데이터 소스로 연결하는 것도 비슷한 패턴을 따릅니다.
웹 도메인을 데이터 소스로 추가
이 작업을 시도해 보려면 Amazon Bedrock 콘솔로 이동하여 지식 기반을 생성합니다. 이름 및 설명을 비롯한 지식 기반 세부 정보를 제공하고 관련 AWS Identity and Access Management(IAM) 권한으로 새 서비스 역할을 생성하거나 기존 서비스 역할을 사용합니다.
그런 다음 사용할 데이터 소스를 선택합니다. Web Crawler(웹 크롤러)를 선택합니다.
다음 단계에서는 웹 크롤러를 구성합니다. 웹 크롤러 데이터 소스의 이름 및 설명을 입력합니다. 그런 다음 소스 URL을 정의합니다. 이 데모에서는 저의 게시물이 모두 나열되어 있는 저의 AWS 뉴스 블로그 작성자 페이지의 URL을 추가합니다. 크롤링하려는 웹 사이트의 시드 또는 시작점 URL을 최대 10개까지 추가할 수 있습니다.
필요에 따라 사용자 지정 암호화 설정을 구성하고 데이터 소스 삭제 시 벡터 스토어 데이터를 보존할지 아니면 삭제할지를 정의하는 데이터 삭제 정책을 구성할 수 있습니다. 여기서는 기본 고급 설정을 유지하겠습니다.
동기화 범위 섹션에서 사용하려는 동기화 도메인 수준, 분당 크롤링할 최대 URL 수, 특정 URL을 포함하거나 제외하는 정규식 패턴을 구성할 수 있습니다.
웹 크롤러 데이터 소스 구성을 완료한 후 임베딩 모델을 선택하고 선택한 벡터 스토어를 구성하여 지식 기반 설정을 완료합니다. 지식 기반 생성 후 세부 정보를 확인하여 데이터 소스 동기화 상태를 모니터링할 수 있습니다. 동기화가 완료되면 지식 기반을 테스트하고 웹 URL을 인용한 FM 응답을 볼 수 있습니다.
프로그래밍 방식으로 데이터 소스를 생성하려면 AWS Command Line Interface(AWS CLI) 또는 AWS SDK를 사용할 수 있습니다. 코드 예제는 Amazon Bedrock 사용 설명서를 참조하세요.
Confluence를 데이터 소스로 연결
이제 지식 기반 설정에서 Confluence를 데이터 소스로 선택해 보겠습니다.
Confluence를 데이터 소스로 구성하기 위해 데이터 소스의 이름 및 설명을 다시 제공하고 호스팅 방법을 선택한 다음 Confluence URL을 입력합니다.
Confluence에 연결하려면 기본 인증과 OAuth 2.0 인증 중에서 선택할 수 있습니다. 이 데모에서는 사용자 이름(Confluence 사용자 계정 이메일 주소) 및 암호(Confluence API 토큰)가 필요한 기본 인증을 선택했습니다. AWS Secrets Manager에 관련 자격 증명을 저장하고 비밀을 선택합니다.
참고: 보안 이름이 ‘AmazonBedrock-’으로 시작하고 지식 기반의 IAM 서비스 역할이 Secrets Manager에서 이 암호에 액세스할 수 있는 권한을 가지고 있는지 확인하세요.
메타데이터 설정에서 정규식 포함 및 제외 패턴을 사용하여 크롤링하려는 콘텐츠의 범위를 제어하고 콘텐츠 청킹 및 구문 분석 전략을 구성할 수 있습니다.
Confluence 데이터 소스 구성을 완료한 후 임베딩 모델을 선택하고 선택한 벡터 스토어를 구성하여 지식 기반 설정을 완료합니다.
지식 기반 생성 후 세부 정보를 확인하여 데이터 소스 동기화 상태를 모니터링할 수 있습니다. 동기화가 완료되면 지식 기반을 테스트할 수 있습니다. 이 데모에서는 Confluence 스페이스에 가상의 회의 메모를 몇 개 추가했습니다. 회의 중 하나에서 나온 조치 항목에 대해 물어봅시다!
Salesforce 및 SharePoint를 데이터 소스로 연결하는 방법에 대한 지침은 Amazon Bedrock 사용 설명서를 참조하세요.
주요 사항
- 포함 및 제외 필터 – 모든 데이터 소스는 포함 및 제외 필터를 지원하므로 특정 소스에서 크롤링되는 데이터를 세밀하게 제어할 수 있습니다.
- 웹 크롤러 – 자신의 웹 페이지 또는 크롤링 권한이 있는 웹 페이지에서만 웹 크롤러를 사용해야 한다는 점을 기억하세요.
정식 출시
새로운 데이터 소스 커넥터는 현재 Amazon Bedrock용 지식 기반을 사용할 수 있는 모든 AWS 리전에서 사용할 수 있습니다. 세부 정보 및 향후 업데이트는 리전 목록을 확인하세요. 지식 기반에 대해 자세히 알아보려면 Amazon Bedrock 제품 페이지를 방문하세요. 요금 세부 정보는 Amazon Bedrock 요금 페이지를 참조하세요.
지금 Amazon Bedrock 콘솔에서 새로운 데이터 소스 커넥터를 사용해본 후 AWS re:Post for Amazon Bedrock을 이용하거나 AWS 담당자를 통해 피드백을 보내고 community.aws의 생성형 AI 빌더 커뮤니티에 참여하세요.
– Antje