Apache Spark บน Amazon EMR
เหตุใดต้องใช้ Apache Spark บน EMR
Amazon EMR คือที่ที่ดีที่สุดในการเรียกใช้ Apache Spark คุณสามารถสร้างคลัสเตอร์ Spark ที่มีการจัดการได้อย่างง่ายดายและรวดเร็วจาก AWS Management Console, AWS CLI หรือ Amazon EMR API นอกจากนี้ คุณยังสามารถใช้ประโยชน์จากฟีเจอร์ต่าง ๆ ของ Amazon EMR ซึ่งรวมถึงการเชื่อมต่อกับ Amazon S3 ที่รวดเร็วโดยใช้ Amazon EMR File System (EMRFS), การผสานรวมกับตลาด Amazon EC2 Spot และแค็ตตาล็อกข้อมูลของ AWS Glue และ EMR Managed Scaling เพื่อเพิ่มหรือลบอินสแตนซ์ออกจากคลัสเตอร์ของคุณ AWS Lake Formation มีการควบคุมสิทธิ์การเข้าถึงอย่างละเอียด ในขณะที่การผสานรวมกับ AWS Step Functions จะช่วยในการจัดการไปป์ไลน์ข้อมูล EMR Studio (การแสดงตัวอย่าง) คือสภาพแวดล้อมการพัฒนาแบบผสานรวม (IDE) ที่ช่วยอำนวยความสะดวกให้กับนักวิทยาศาสตร์ข้อมูลและวิศวกรข้อมูลในการพัฒนา แสดงภาพ และแก้จุดบกพร่องของแอปพลิเคชันด้านวิศวกรรมข้อมูลและวิทยาศาสตร์ข้อมูลที่เขียนด้วยภาษา R, Python, Scala และ PySpark EMR Studio ให้บริการ Jupyter Notebooks ที่มีการจัดการเต็มรูปแบบ รวมถึงเครื่องมือต่างๆ อย่าง Spark UI และ YARN Timeline Service เพื่อลดความซับซ้อนในการแก้จุดบกพร่อง EMR Notebooks ช่วยให้คุณทดลองและสร้างแอปพลิเคชันด้วย Spark ได้อย่างง่ายดาย หากต้องการ คุณสามารถใช้ Apache Zeppelin ในการสร้างโน้ตบุ๊กเชิงโต้ตอบแบบทำงานร่วมกันสำหรับการสำรวจข้อมูลโดยใช้ Spark
คุณสมบัติและประโยชน์
กรณีใช้งาน
ความสำเร็จของลูกค้า
-
Yelp
ทีมกำหนดเป้าหมายโฆษณาของ Yelp สร้างรูปแบบการคาดการณ์ในการกำหนดความเป็นไปได้ของการโต้ตอบกับโฆษณาของผู้ใช้ Yelp มีรายได้เพิ่มขึ้นและมีอัตราการคลิกผ่านในการโฆษณาเพิ่มขึ้นโดยใช้ Apache Spark บน Amazon EMR ในการประมวลผลข้อมูลจำนวนมากเพื่อฝึกรูปแบบแมชชีนเลิร์นนิ่ง
-
The Washington Post
Washington Post ใช้ Apache Spark บน Amazon EMR ในการสร้างรูปแบบที่ส่งเสริมเอนจิ้นการให้คำแนะนำบนเว็บไซต์เพื่อเพิ่มการมีส่วนร่วมและความพึงพอใจของผู้อ่าน พวกเขาใช้ประโยชน์จากการเชื่อมต่อประสิทธิภาพสูงของ Amazon EMR กับ Amazon S3 เพื่ออัปเดตรูปแบบที่แทบจะเทียบได้กับแบบเรียลไทม์
-
Krux
เนื่องจากเป็นส่วนหนึ่งของแพลตฟอร์มการจัดการข้อมูลสำหรับข้อมูลเชิงลึกของลูกค้า Krux จึงเปิดใช้งานหลายแมชชีนเลิร์นนิ่งและปริมาณงานการประมวลผลทั่วไปโดยใช้ Apache Spark Krux ใช้คลัสเตอร์ Amazon EMR แบบชั่วคราวกับ Amazon EC2 Spot Capacity เพื่อลดต้นทุน และใช้ Amazon S3 กับ EMRFS เป็นโครงสร้างข้อมูลสำหรับ Apache Spark
-
GumGum
GumGum ซึ่งเป็นแพลตฟอร์มการโฆษณาในภาพและในหน้าจอ ใช้ Spark บน Amazon EMR สำหรับการคาดการณ์สินค้าคงคลัง การประมวลผลบันทึกการคลิกสตรีม และการวิเคราะห์เฉพาะข้อมูลไร้โครงสร้างใน Amazon S3 การเพิ่มประสิทธิภาพการทำงานของ Spark ช่วย GumGum ประหยัดเวลาและเงินสำหรับเวิร์คโฟลว์เหล่านี้ได้
-
Hearst Corporation
Hearst Corporation เป็นบริษัทสื่อและข้อมูลที่มีขนาดใหญ่ซึ่งมีลูกค้าที่ดูเนื้อหาบนเว็บไซต์กว่า 200 เว็บ ฝ่ายบรรณาธิการของ Hearst สามารถดูข้อมูลได้แบบเรียลไทม์เพื่อให้รู้ว่าบทความและรูปแบบไหนที่ได้รับความนิยม โดยใช้ Apache Spark Streaming บน Amazon EMR
-
CrowdStrike
CrowdStrike มีระบบป้องกันปลายทางเพื่อไม่ให้เกิดการละเมิด พวกเขาใช้ Amazon EMR ที่มี Spark ในการประมวลผลข้อมูลเหตุการณ์กว่าร้อยเทราไบต์และรวบรวมลงในคำอธิบายลักษณะการทำงานระดับสูงกว่าบนโฮสต์ จากข้อมูลดังกล่าว CrowdStrike สามารถดึงข้อมูลเหตุการณ์เข้าไว้ด้วยกันและระบุการดำเนินการที่เป็นอันตราย