Apache Hadoop บน Amazon EMR
เหตุใดต้องใช้ Apache Hadoop บน EMR
Apache™ Hadoop® คือโปรเจกต์ซอฟต์แวร์แบบโอเพนซอร์สที่สามารถใช้เพื่อประมวลผลชุดข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพ แทนที่จะใช้คอมพิวเตอร์ความจุขนาดใหญ่หนึ่งเครื่องเพื่อประมวลผลและจัดเก็บข้อมูล Hadoop ช่วยให้คุณสามารถจัดคลัสเตอร์ฮาร์ดแวร์ทั่วไปไว้ด้วยกันเพื่อวิเคราะห์ชุดข้อมูลปริมาณมหาศาลพร้อมกันได้
มีแอปพลิเคชันและกลไกดำเนินการมากมายในระบบนิเวศของ Hadoop ซึ่งมอบเครื่องมืออันหลากหลายที่ตรงกับความต้องการปริมาณงานด้านการวิเคราะห์ของคุณ Amazon EMR ช่วยให้การสร้างและจัดการคลัสเตอร์ที่มีการกำหนดค่าเต็มรูปแบบและมีความยืดหยุ่นของอินสแตนซ์ Amazon EC2 ซึ่งรัน Hadoop รวมทั้งแอปพลิเคชันอื่นๆ ในระบบนิเวศของ Hadoop เป็นเรื่องง่ายขึ้น
Hadoop และ Big Data เกี่ยวข้องกันอย่างไร
โดยทั่วไปจะมีการใช้ Hadoop เพื่อประมวลผลเวิร์กโหลด Big Data เนื่องจากสามารถปรับขนาดได้หลากหลายมาก หากต้องการเพิ่มพลังการประมวลผลของคลัสเตอร์ Hadoop ให้เพิ่มเซิร์ฟเวอร์ที่มีทรัพยากร CPU และหน่วยความจำที่จำเป็น เพื่อตอบโจทย์ความต้องการของคุณ
Hadoop จะมอบความคงทนและความพร้อมใช้งานในระดับสูง โดยขณะเดียวกันก็ยังสามารถประมวลผลปริมาณงานเชิงคำนวณวิเคราะห์ไปพร้อมๆ กันได้อีกด้วย ด้วยการผสมผสานระหว่างการประมวลผลที่มีความพร้อมใช้งาน ความคงทน ความสามารถปรับขนาดได้ จึงทำให้ Hadoop เหมาะกับปริมาณงาน Big Data คุณสามารถใช้ Amazon EMR เพื่อสร้างและกำหนดค่าคลัสเตอร์ของอินสแตนซ์ Amazon EC2 ที่ใช้ Hadoop ได้ภายในไม่กี่นาที และเริ่มต้นรับค่าจากข้อมูลของคุณได้