Amazon Comprehend, 네이티브 포맷 문서에서 사용자 지정 엔터티 추출

게시된 날짜: Sep 15, 2021

이제 사용자는 기계 학습을 사용하여 텍스트 정보를 파악하는 자연어 처리(NLP) 서비스인 Amazon Comprehend를 사용하여 다양한 포맷의 문서(PDF, Word, 일반 텍스트) 및 레이아웃(예: 글머리 기호, 목록)에서 사용자 지정 엔터티를 추출할 수 있습니다. 이를 통해 더 쉽게 인사이트를 추출하고 문서 처리 워크플로를 추가적으로 자동화할 수 있습니다.

이번 발표 이전에 사용자는 일반 텍스트에 대해서만 Amazon Comprehend를 사용할 수 있었기 때문에 문서를 기계 판독이 가능한 텍스트로 평문화해야 했으며 종종 문서의 컨텍스트 품질을 낮춰야 했습니다. 이 새로운 기능은 자연어 처리(NLP)와 광학 문자 인식(OCR)의 파워를 결합하여 전처리 과정 없이, 동일한 API를 통해 PDF, Word, 일반 텍스트 문서에서 사용자 지정 엔터티를 추출할 수 있습니다.

이 새로운 사용자 지정 엔터티 인식 기능은 자연어 컨텍스트와 결합된 텍스트의 구조적 컨텍스트(페이지 내의 텍스트 위치)를 사용하여 고밀도 텍스트, 번호가 매겨진 목록, 글머리 기호에서 사용자 지정 엔터티를 추출합니다. 또한, 이러한 컴비네이션을 사용하여 텍스트의 동일 범위에 속하지 않은 떨어져 있거나 분리된 엔터티(예를 들어, 테이블 내에 속해 있는 엔터티)를 추출할 수 있습니다. 이러한 새로운 기능은 Comprehend를 사용하기 전에 PDF 및 Word 파일을 평문화된 일반 텍스트로 전환하기 위한 사용자 지정 로직을 구축할 필요가 없습니다. 새로운 네이티브 문서 포맷을 지원하는 Comprehend는 다양한 문서 포맷 및 레이아웃을 처리하는 모기지, 금융, 보험 회사와 같이 업계의 고객에서 큰 이점을 제공합니다. 예를 들어, 모기지 회사는 입출금 내역서, 급여 명세서, 고용 확인서 등 스캔된 PDF와 같은 문서에서 신청인의 은행 정보, 주소, 공동 서명인의 이름을 추출하여 신청서를 더 빠르게 처리할 수 있습니다.

PDF, Word, 일반 텍스트 문서에 사용할 수 있는 사용자 지정 엔터티 인식 모델을 훈련시키고자 하는 고객은 Amazon Comprehend가 제공하는 사용자 지정 Amazon SageMaker Ground Truth 주석 템플릿을 사용하여 먼저 PDF 문서에 주석을 달아야 합니다. 사용자 지정 엔터티 인식 모델은 자연어 및 텍스트의 위치 정보(예: 좌표)를 모두 사용하여 이전에는 문서를 평문화하면서 영향을 받았던 사용자 지정 엔터티를 정확하게 추출할 수 있습니다. 문서에 주석을 다는 방법에 대한 단계별 세부 정보는 Amazon Comprehend를 사용하여 지명된 문서의 엔터티를 추출하기 위하여 사용자 지정 문서에 주석 달기를 참조하십시오. 주석 달기를 완료하면 사용자 지정 인식 모델을 훈련시키고 이 모델을 사용하여 배치 처리(비동기적)를 위해 PDF 및 Word에서 사용자 지정 엔터티를 추출할 수 있습니다. 스캔된 PDF 문서에서 텍스트 및 텍스트의 공간적 위치를 추출하기 위하여 Amazon Comprehend는 사용자 지정 엔터티 인식 이전 단계에서 사용자를 대신하여 Amazon Textract를 호출합니다. 모델을 훈련시키고 사용하는 방법에 대한 세부 정보는 Amazon Comprehend로 네이티브 포맷 문서에서 사용자 지정 엔터티 추출하기를 참조하십시오.

일반 텍스트, PDF, Word 문서에 대한 사용자 지정 엔터티 인식 지원은 AWS 콘솔 및 AWS CLI를 통해 직접 제공됩니다. Comprehend 및 Textract를 모두 지원하는 AWS 리전 목록은 모든 AWS 글로벌 인프라가 나와 있는 AWS 리전 표를 참조하십시오.

자세히 알아보고 시작하려면Amazon Comprehend 제품 페이지, 인텔리전트 문서 처리 페이지, 또는 AWS 설명서를 방문하십시오.

Amazon Comprehend, 네이티브 포맷 문서에서 사용자 지정 엔터티 추출

Internet Explorer에 대한 지원 종료