AWS Inferentia

Amazon EC2에서 딥 러닝 및 생성형 AI 추론을 위한 고성능 기능을 최저 비용으로 제공

AWS Neuron을 사용하여 AWS Inferentia 칩 시작하기

Inferentia를 사용해야 하는 이유는 무엇인가요?

AWS Inferentia 칩은 딥 러닝(DL) 및 생성형 AI 추론 애플리케이션을 위해 Amazon EC2에서 최저 비용으로 고성능을 제공하도록 설계되었습니다.

1세대 AWS Inferentia 칩으로 구동되는 Amazon Elastic Compute Cloud(Amazon EC2) Inf1 인스턴스는 비교 가능한 Amazon EC2 인스턴스에 비해 추론당 최대 70% 저렴한 비용으로 최대 2.3배 더 많은 처리량을 제공합니다. Finch AI, Sprinklr, Money Forward, Amazon Alexa를 비롯한 많은 고객이 Inf1 인스턴스를 채택하여 성능 및 비용 이점을 실현했습니다.

AWS Inferentia2 칩은 Inferentia 대비 최대 4배 더 많은 처리량과 최대 10배 더 짧은 지연 시간을 제공합니다. Inferentia2 기반 Amazon EC2 Inf2 인스턴스는 대규모 언어 모델(LLM) 및 잠재 확산 모델과 같이 나날이 복잡해지는 모델을 대규모로 배포하도록 최적화되었습니다. Inf2 인스턴스는 Amazon EC2 최초의 추론 최적화 인스턴스로, 칩 간의 초고속 연결을 통한 스케일 아웃 분산 추론을 지원합니다. Leonardo.ai, Deutsche Telekom, Qualtrics를 비롯한 많은 고객이 DL 및 생성형 AI 애플리케이션에 Inf2 인스턴스를 채택했습니다.

AWS Neuron SDK는 AWS Inferentia 칩에 모델을 배포하고 AWS Trainium 칩에서 모델을 훈련하는 데 도움이 됩니다. PyTorch, TensorFlow 같은 널리 사용되는 프레임워크와 기본적으로 통합되므로 기존 코드와 워크플로를 계속 사용하고 Inferentia 칩에서 실행할 수 있습니다.

AWS Inferentia 이점

높은 처리량과 짧은 지연 시간에 최적화됨

각 1세대 Inferentia 칩에는 4개의 1세대 NeuronCore가 탑재되며, 각 EC2 Inf1 인스턴스에는 최대 16개의 Inferentia 칩이 포함됩니다. 각 Inferentia2 칩에는 2개의 2세대 NeuronCore가 탑재되며, 각 EC2 Inf2 인스턴스에는 최대 12개의 Inferentia2 칩이 포함됩니다. 각 Inferentia2 칩은 최대 190테라플롭의 FP16 성능을 지원합니다. 1세대 Inferentia에는 칩당 8GB의 DDR4 메모리와 대용량 온칩 메모리가 포함됩니다. Inferentia2는 칩당 32GB의 HBM을 제공하여 총 메모리를 Inferentia보다 4배 늘리고 메모리 대역폭을 10배 높입니다.

ML 프레임워크를 기본적으로 지원

AWS Neuron SDK는 PyTorch 및 TensorFlow 같은 유명한 ML 프레임워크와 기본적으로 통합됩니다. AWS Neuron을 사용하면 이러한 프레임워크를 사용하여 두 AWS Inferentia 칩 모두에 DL 모델을 최적으로 배포할 수 있으며, Neuron은 코드 변경을 최소화하고 공급업체별 솔루션에 연계하도록 설계되었습니다. Neuron은 Inferentia 칩에서 자연어 처리(NLP)/이해, 언어 번역, 텍스트 요약, 비디오 및 이미지 생성, 음성 인식, 개인화, 사기 탐지 등을 위한 추론 애플리케이션을 실행하는 데 도움이 됩니다.

자동 캐스팅을 통해 다양한 데이터 유형 지원

1세대 Inferentia는 FP16, BF16 및 INT8 데이터 유형을 지원합니다. Inferentia2는 FP32, TF32 및 구성 가능한 새로운 FP8(cFP8) 데이터 유형을 추가로 지원하여 보다 유연하게 성능 및 정확성을 최적화할 수 있도록 합니다. AWS Neuron은 높은 정밀도의 FP32 모델을 낮은 정밀도의 데이터 유형으로 자동 캐스팅하여 정확성과 성능을 최적화합니다. 자동 캐스팅을 사용하면 낮은 정밀도의 재훈련이 필요하지 않으므로 출시 시간이 단축됩니다.

최첨단 DL 기능

Inferentia2는 하드웨어 최적화를 추가하여 동적 입력 크기 및 C++로 작성된 사용자 지정 연산자를 지원합니다. 레거시 반올림 모드보다 높은 성능과 정확성을 제공하는 확률적 반올림 방식인 확률 반올림도 지원합니다.

지속 가능성을 고려한 설계

Inf2 인스턴스는 비교 가능한 Amazon EC2 인스턴스보다 최대 50% 뛰어난 와트당 성능을 제공합니다. 인스턴스 자체와 기반 Inferentia2 칩이 대규모 DL 모델 실행을 위해 특별히 설계되었기 때문입니다. Inf2 인스턴스는 초대형 모델을 배포할 때 지속 가능성 목표를 달성하는 데 도움이 됩니다.

동영상

Behind the scenes look at Generative AI infrastructure at Amazon(Amazon의 생성형 AI 인프라에 대한 비하인드 스토리)

Introducing Amazon EC2 Inf2 instances powered by AWS Inferentia2(AWS Inferentia2로 구동되는 Amazon EC2 Inf2 인스턴스 소개)

How four AWS customers reduced ML costs and drove innovation with AWS Inferentia(AWS Inferentia를 사용하여 ML 비용을 줄이고 혁신을 주도한 네 가지 고객 사례)

리소스

AWS Inferentia 및 AWS Trainium을 통해 Amazon SageMaker JumpStart에서 Llama 2 모델을 비용 효율적으로 미세 조정하고 배포

블로그 읽기

QLoRA를 사용하여 Llama 2를 미세 조정하고 AWS Inferentia2를 통해 Amazon SageMaker에 배포

블로그 읽기

AWS Inferentia2를 사용하여 Stable Diffusion 성능을 극대화하고 추론 비용 절감

블로그 읽기

Amazon SageMaker에서 AWS Inferentia2 및 AWS Trainium을 사용하여 생성형 AI 추론에 가장 저렴한 비용으로 고성능 달성

블로그 읽기

ByteDance, AWS Inferentia를 사용하여 지연 시간을 줄이고 처리량을 높이는 동시에 추론 비용 최대 60% 절감

블로그 읽기

How Amazon Search reduced ML inference costs by 85% with AWS Inferentia(Amazon Search에서 AWS Inferentia를 통해 ML 추론 비용을 85% 절감한 방법)

블로그 읽기

Additional resources

AWS Neuron을 사용하고 TensorFlow, PyTorch 또는 MXNet 내에서 AWS Inferentia 시작하기

자세히 알아보기

Additional resources

AWS Neuron 기능 로드맵

자세히 알아보기

Additional resources

간단한 자습서를 사용하여 AWS Inferentia에서 추론 시작

자세히 알아보기

AWS Inferentia 시작하기

콘솔에서 구축 시작

추론 샘플/자습서(Inf2/Trn1)

자세히 알아보기