Hadoop คืออะไร?
Apache Hadoop เป็นโอเพนซอร์สเฟรมเวิร์กที่ใช้เก็บและประมวลผลชุดข้อมูลขนาดใหญ่อย่างมีประสิทธิภาพตามขนาดต่าง ๆ ตั้งแต่ข้อมูลขนาดกิกะไบต์ไปถึงเพตาไบต์ แทนที่จะใช้คอมพิวเตอร์ความจุขนาดใหญ่หนึ่งเครื่องเพื่อประมวลผลและจัดเก็บข้อมูล Hadoop ช่วยให้คุณสามารถจัดคลัสเตอร์เครื่องคอมพิวเตอร์หลายเครื่องเข้าไว้ด้วยกันเพื่อวิเคราะห์ชุดข้อมูลปริมาณมหาศาลพร้อมกันได้อย่างรวดเร็วขึ้น
โมดูลหลักสี่โมดูลของ Hadoop คืออะไร
Hadoop ประกอบด้วยสี่โมดูลหลัก:
- Hadoop Distributed File System (HDFS) – ระบบไฟล์แบบกระจายที่ทำงานบนฮาร์ดแวร์มาตรฐานหรือฮาร์ดแวร์ระดับล่าง HDFS ให้อัตราการโอนถ่ายข้อมูลที่ดีกว่าระบบไฟล์แบบเดิม นอกเหนือจากความทนทานต่อความเสียหายสูงและการสนับสนุนชุดข้อมูลขนาดใหญ่แบบเนทีฟ
- Yet Another Resource Negotiator (YARN) – จัดการและตรวจสอบการใช้โหนดคลัสเตอร์และทรัพยากร ซึ่งจะกำหนดเวลางานและงาน
- MapReduce – เฟรมเวิร์กที่ช่วยให้โปรแกรมทำการประมวลผลข้อมูลแบบขนาน งานจับคู่ใช้ข้อมูลอินพุตและแปลงเป็นชุดข้อมูลที่สามารถประมวลผลเป็นคู่ของค่าคีย์ได้ เอาต์พุตของงานจับคู่ถูกใช้โดยการลดงานเพื่อรวมเอาต์พุตและให้ผลลัพธ์ที่ต้องการ
- Hadoop Common – ให้ไลบรารี Java ทั่วไปที่สามารถใช้ได้กับทุกโมดูล
Hadoop ทำงานอย่างไร
Hadoop ช่วยให้ใช้ความสามารถด้านพื้นที่เก็บและการประมวลผลทั้งหมดในคลัสเตอร์เซิร์ฟเวอร์ได้ง่ายขึ้น และดำเนินการกระบวนการแบบกระจายกับข้อมูลจำนวนมหาศาล Hadoop ให้องค์ประกอบสำคัญที่สามารถสร้างบริการและแอปพลิเคชันอื่นๆ ได้
แอปพลิเคชันที่รวบรวมข้อมูลในรูปแบบต่างๆ สามารถวางข้อมูลลงในคลัสเตอร์ Hadoop ได้โดยใช้การดำเนินการ API เพื่อเชื่อมต่อกับ NameNode NameNode ติดตามโครงสร้างไดเร็กทอรีไฟล์และตำแหน่งของ “กอง” สำหรับแต่ละไฟล์ ซึ่งจำลองแบบทั่ว DataNodes หากต้องการเรียกใช้งานเพื่อสืบค้นข้อมูล ให้งาน MapReduce ที่ประกอบด้วยการจับคู่จำนวนมาก และลดงานที่เรียกใช้กับข้อมูลใน HDFS ที่กระจายไปทั่ว DataNodes งานจับคู่จะเรียกใช้บนแต่ละโหนดโดยเทียบกับไฟล์อินพุตที่ให้มา และตัวลดจะเรียกใช้เพื่อรวบรวมและจัดระเบียบเอาต์พุตสุดท้าย
ระบบนิเวศ Hadoop มีการพัฒนาอย่างไร
ระบบนิเวศ Hadoop เติบโตขึ้นอย่างมากในช่วงหลายปีที่ผ่านมาเนื่องจากมีความสามารถในการขยาย ปัจจุบัน ระบบนิเวศของ Hadoop มีเครื่องมือและแอปพลิเคชันมากมายที่ช่วยรวบรวม เก็บ ประมวลผล วิเคราะห์ และจัดการ Big Data แอปพลิเคชันยอดนิยมบางส่วน ได้แก่:
- Spark – โอเพนซอร์สระบบประมวลผลแบบกระจาย ซึ่งมักนำไปใช้สำหรับเวิร์กโหลด Big Data Apache Spark ใช้การแคชในหน่วยความจำและการดำเนินการที่ดีที่สุดเพื่อให้มีประสิทธิภาพการทำงานที่รวดเร็ว และรองรับการประมวลผลแบบแบทช์ทั่วไป การวิเคราะห์การสตรีม แมชชีนเลิร์นนิง ฐานข้อมูลแบบกราฟ และการสืบค้นข้อมูลแบบเฉพาะกิจ
- Presto – โปรแกรมสืบค้น SQL แบบโอเพนซอร์สแบบกระจายที่ได้รับการปรับให้เหมาะสมสำหรับการวิเคราะห์ข้อมูลเฉพาะกิจที่มีเวลาแฝงต่ำ รองรับมาตรฐาน ANSI SQL รวมถึงการสืบค้นที่ซับซ้อน การรวบรวม การรวม และฟังก์ชันหน้าต่าง Presto สามารถประมวลผลข้อมูลจากแหล่งที่มาของข้อมูลหลายแหล่ง รวมถึง Hadoop Distributed File System (HDFS) และ Amazon S3
- Hive – ช่วยให้ผู้ใช้สามารถใช้ประโยชน์จาก Hadoop MapReduce โดยใช้อินเทอร์เฟซ SQL เพื่อเปิดใช้การวิเคราะห์ในขนาดใหญ่ เพิ่มเติมจากคลังข้อมูลขนาดใหญ่ แบบกระจาย และทนทานต่อความเสียหาย
- HBase – ฐานข้อมูลเวอร์ชันโอเพนซอร์สที่ไม่เกี่ยวข้องซึ่งทำงานบน Amazon S3 (โดยใช้ EMRFS) หรือ Hadoop Distributed File System (HDFS) HBase เป็นที่เก็บ Big Data แบบกระจายที่สามารถปรับขนาดได้อย่างมาก สร้างขึ้นเพื่อการเข้าถึงแบบเรียลไทม์แบบสุ่มสม่ำเสมอสำหรับตารางที่มีแถวหลายพันล้านแถวและหลายล้านคอลัมน์
- Zeppelin – สมุดบันทึกแบบโต้ตอบที่ช่วยให้สามารถสำรวจข้อมูลแบบอินเทอร์แอคทีฟได้
AWS รองรับข้อกำหนด Hadoop ของคุณได้อย่างไร
Amazon EMR คือบริการที่มีการจัดการซึ่งจะช่วยให้คุณสามารถประมวลผลและวิเคราะห์ชุดข้อมูลขนาดใหญ่โดยใช้เฟรมเวิร์กการประมวลผลข้อมูลBig Dataเวอร์ชันล่าสุด เช่น Apache Hadoop, Spark, HBase และ Presto กับคลัสเตอร์แบบกำหนดเองเต็มรูปแบบ
- ใช้งานง่าย: คุณสามารถเปิดใช้งานคลัสเตอร์ Amazon EMR ได้ภายในไม่กี่นาที คุณไม่จำเป็นต้องกังวลเรื่องการจัดเตรียมโหนด การตั้งค่าคลัสเตอร์ การกำหนดค่า Hadoop หรือการปรับแต่งคลัสเตอร์
- ค่าใช้จ่ายน้อย: ค่าบริการ Amazon EMR นั้นง่ายและคาดการณ์ได้: คุณจ่ายอัตรารายชั่วโมงสำหรับทุกชั่วโมงอินสแตนซ์ที่คุณใช้ และคุณสามารถใช้ประโยชน์จาก Spot Instance เพื่อการประหยัดยิ่งขึ้น
- ยืดหยุ่น: คุณสามารถจัดเตรียมอินสแตนซ์การประมวลผลหนึ่ง หลายร้อย หรือหลายพันอินสแตนซ์เพื่อประมวลผลข้อมูลในทุกระดับได้ด้วย Amazon EMR
- ชั่วคราว: คุณสามารถใช้ EMRFS เพื่อเรียกใช้คลัสเตอร์ตามความต้องการโดยอิงตามข้อมูล HDFS ที่เก็บอย่างต่อเนื่องใน Amazon S3 เมื่องานเสร็จสิ้น คุณสามารถปิดคลัสเตอร์และบันทึกข้อมูลใน Amazon S3 ได้ คุณจ่ายเฉพาะเวลาประมวลผลที่คลัสเตอร์กำลังถูกเรียกใช้อยู่เท่านั้น
- ปลอดภัย: Amazon EMR ใช้คุณลักษณะการรักษาความปลอดภัยทั่วไปทั้งหมดของบริการ AWS
- หน้าที่และนโยบาย Identity and Access Management (IAM) เพื่อจัดการสิทธิ์
- การเข้ารหัสระหว่างส่งผ่านและระหว่างพักเก็บเพื่อช่วยคุณปกป้องข้อมูลของคุณและทำตามมาตรฐานการปฏิบัติตามข้อกำหนด เช่น HIPAA
- กลุ่มมาตรการรักษาความปลอดภัยเพื่อควบคุมการรับส่งข้อมูลเครือข่ายขาเข้าและขาออกไปยังโหนดคลัสเตอร์ของคุณ
- AWS CloudTrail: ตรวจสอบการเรียกใช้ Amazon EMR PI ทั้งหมดในบัญชีของคุณเพื่อให้การวิเคราะห์การรักษาความปลอดภัย การติดตามการเปลี่ยนแปลงทรัพยากร และการตรวจสอบการปฏิบัติตามข้อกำหนด
เริ่มต้นใช้งาน Hadoop บน AWS โดยการสร้างบัญชีวันนี้