Amazon EMR 시작하기
EMR 사용 방법
데이터 처리 애플리케이션 개발
Java, Hive(유사 SQL 언어), Pig(데이터 처리 언어), Cascading, Ruby, Perl, Python, R, PHP, C++ 또는 Node.js를 사용할 수 있습니다. Amazon EMR은 사용자가 빠르게 시작 및 실행할 수 있도록 코드 샘플과 자습서를 제공합니다.
Amazon S3에 애플리케이션과 데이터 업로드
업로드할 데이터가 많은 경우 AWS Import/Export Snowball(물리적 스토리지 디바이스를 사용해 데이터 업로드) 또는 AWS Direct Connect(데이터 센터에서 AWS로 연결되는 전용 네트워크 연결 구성)를 사용할 수 있습니다. 원하는 경우 실행 중인 클러스터에 직접 데이터를 쓸 수도 있습니다.
클러스터 구성 및 시작
AWS Management Console, AWS CLI, SDK 또는 API를 사용하여 클러스터에서 프로비저닝할 Amazon EC2 인스턴스의 수, 사용할 인스턴스의 유형(표준, 고용량 메모리, 고성능 CPU, 고성능 I/O 등), 설치할 애플리케이션(Apache Spark, Apache Hive, Apache HBase, Presto 등), 애플리케이션 및 데이터의 위치를 지정합니다. 부트스트랩 작업을 사용하여 추가 소프트웨어를 설치하거나 기본 설정을 변경할 수 있습니다.
클러스터 모니터링
Management Console, 명령줄 인터페이스, SDK 또는 API를 사용하여 클러스터의 상태와 진행 상태를 모니터링할 수 있습니다. EMR을 Amazon CloudWatch와 통합하여 모니터링하거나 경보를 실행하고 Ganglia와 같은 주요 모니터링 도구를 지원합니다. 언제든지 클러스터에 용량을 추가하거나 제거하여 데이터를 더 많이, 더 적게 처리할 수 있습니다. 문제 해결을 위해 콘솔의 간단한 디버깅 GUI를 사용할 수 있습니다.
출력 가져오기
클러스터의 Amazon S3 또는 HDFS에서 출력을 가져옵니다. Amazon QuickSight, Tableau 및 MicroStrategy와 같은 도구를 사용해 데이터를 시각화합니다. 처리가 완료되면 Amazon EMR이 자동으로 클러스터를 종료합니다. 또는 클러스터를 계속 실행하여 더 많은 작업을 처리하게 할 수 있습니다.
첫 번째 클러스터를 실행할 준비가 되었습니까?
Amazon EMR Management Console을 사용하여 클러스터를 시작하려면 여기를 클릭하세요. 샘플 데이터가 있는 샘플 애플리케이션을 실행하려면, Create Cluster 페이지에서 Advanced cluster configuration으로 이동하여 오른쪽 위에 있는 회색 "Configure Sample Application" 버튼을 클릭하십시오.