Amazon EMR’de Apache Spark
Neden EMR'de Apache Spark?
Amazon EMR, Apache Spark'ı çalıştırmak için en iyi yerdir. AWS Management Console, AWS CLI veya Amazon EMR API ile hızla ve kolayca yönetilen Spark kümeleri oluşturabilirsiniz. Ayrıca Amazon EMR Dosya Sistemi (EMRFS) ile hızlı Amazon S3 bağlantısı, Amazon EC2 Spot market ve AWS Glue Veri Kataloğu entegrasyonu ile kümenizde bulut sunucusu ekleme veya kaldırma işlemleri için EMR ile Yönetilen Ölçeklendirme gibi ek Amazon EMR özelliklerinden faydalanabilirsiniz. AWS Step Functions entegrasyonu, veri işlem hatlarınızı düzenlemenize yardımcı olurken AWS Lake Formation, ayrıntılı erişim denetimi sağlar. EMR Stüdyosu (önizleme), veri bilimcilerin ve veri mühendislerinin R, Python, Scala ve PySpark dillerinde yazılan veri mühendisliği ve veri bilimi uygulamalarını geliştirmelerini, görselleştirmelerini ve ayıklamalarını kolaylaştıran bir entegre geliştirme ortamıdır (IDE). EMR Studio, veri ayıklama işlemini sadeleştirmek için tam yönetimli Jupyter Notebook’ları ve Spark UI ve YARN Timeline Service gibi araçları sunmaktadır. EMR Not Defterleri, Spark ile uygulamalar denemenizi ve oluşturmanızı kolaylaştırır. Dilerseniz Spark ile veri keşfi için etkileşimli ve ortak çalışmaya uygun not defterleri oluşturmak üzere Apache Zeppelin'i kullanabilirsiniz.
Özellikler ve avantajlar
Kullanım örnekleri
Müşteri başarısı
-
Yelp
Yelp’in reklam hedefleme ekibi, kullanıcının bir reklamla etkileşim kurma ihtimalini belirlemek için tahmine dayalı modeller tasarlamaktadır. Yelp, makine öğrenimi modellerini eğitmek için çok miktarda veriyi işlemek üzere Amazon EMR’de Apache Spark hizmetinden faydalanarak geliri ve reklam tıklama oranını artırmayı başarmıştır.
-
The Washington Post
The Washington Post, Amazon EMR’de Apache Spark’ı kullanarak okuyucu etkileşimini ve memnuniyetini artırma amacıyla web sitesinin öneri altyapısını geliştirmek için modeller oluşturuyor. Şirket, modelleri neredeyse gerçek zamanlı olarak güncellemek için Amazon EMR’nin yüksek performanslı Amazon S3 bağlantısından faydalanıyor.
-
Krux
Krux, müşteri öngörüleri için Veri Yönetim Platformunun bir parçası olarak Apache Spark ile birçok makine öğrenimi ve genel işleme iş yükü çalıştırmaktadır. Krux Amazon EC2 Spot kapasitesi ile Amazon EMR kümelerini kullanarak maliyet tasarrufu gerçekleştirmekte ve Apache Spark veri katmanı olarak EMRFS ile Amazon S3 hizmetinden faydalanmaktadır.
-
GumGum
Görüntü ve ekran içi reklam platformu olan GumGum, Amazon EMR’de Apache Spark hizmetini kullanarak envanter tahmini, tıklama oranı günlüklerinin işlenmesi ve Amazon S3 hizmetindeki yapılandırılmış verilerin anlık analiz edilmesi işlemlerini gerçekleştirmektedir. Spark’ın performans geliştirmeleri sayesinde GumGum, bu iş akışlarında zamandan ve paradan tasarruf etmeyi başarmıştır.
-
Hearst Corporation
Geniş ölçekli bir medya ve bilgi şirketi olan Hearst Corporation, 200’den fazla web mülkündeki içeriği görüntüleyen müşterilere sahiptir. Amazon EMR’de Apache Spark hizmetinin akış özelliklerinden faydalanan Hearst şirketinin editör ekibi, yüksek performansa sahip olan makaleleri ve yükselişte olan konuları gerçek zamanlı olarak takip edebilmektedir.
-
CrowdStrike
CrowdStrike, ihlalleri durdurmak için uç nokta koruma hizmeti sunmaktadır. Şirket, Amazon EMR’de Apache Spark hizmetini kullanarak yüzlerce terabayt boyutundaki olay verilerini işlemekte ve konaklarla ilgili daha yüksek düzeyde davranış açıklamaları haline dönüştürmektedir. CrowdStrike bu verilerden olay verilerini toplayabilmekte ve kötü niyetli etkinlikleri tespit edebilmektedir.