Amazon EMR

Amazon EMR’de Apache Spark

Neden EMR'de Apache Spark?

Amazon EMR, Apache Spark ve Apache Iceberg ile açık, işlemsel veri gölleri oluşturmanıza olanak tanır. Performans için optimize edilmiş çalışma zamanımız, açık kaynaklı Spark ile %100 API uyumludur ve açık kaynaklı eş değerlerden 4,5 kata kadar daha hızlı çalışırken 2,7 kat daha hızlı Iceberg yazma performansı sunar.

EMR; Apache Iceberg v3 ve Spark 4.0'ı (ön izleme) destekleyerek ACID işlemleri ve şema gelişimi gibi yeteneklerden, VARIANT veri türü veya yarı yapılandırılmış veriler gibi özelliklerden ve veri bütünlüğü için ANSI SQL uyumluluğundan yararlanmanıza olanak tanır. İster EC2'nin ayrıntılı kontrolüne ister EKS'nin container'lı ölçeğine veya EMR Sunucusuz'un sadeliğine ihtiyacınız olsun, Amazon EMR hız, güvenilirlik ve veri bütünlüğü sağlar.

Özellikler ve avantajlar

Amazon EMR'nin performans için optimize edilmiş Apache Spark çalışma zamanı, %100 API uyumluluğunu korurken açık kaynaklı eş değerlere göre 4,5 kata kadar daha hızlı yürütme ile veri gölü iş yüklerini hızlandırır. Bu optimizasyon, Apache Iceberg operasyonlarına kadar uzanır ve hem hız hem de güvenilirlik gerektiren işlemsel veri gölleri için 2,7 kat daha hızlı yazma performansı sunar.

Apache Iceberg v3 ve Spark 4.0 (ön izleme) desteğiyle EMR, ACID işlemleri, şema gelişimi, yarı yapılandırılmış veri işleme için VARIANT veri türü ve ANSI SQL uyumluluğu gibi gelişmiş yetenekler sağlar.

Spark için Amazon EMR çalışma zamanı, sorgu planlarınızı tamamen bellekte çalışacak şekilde optimize ederek donanımınızın kullanımını en üst düzeye çıkarır. EMR, ara verilerin işlenme şeklini kolaylaştırarak, yoğun kaynak gerektiren makine öğrenimi iş yükleriniz için sonuç alma süresini kısaltarak daha hızlı yinelemenizi sağlar.

SQL, Python ve Scala için entegre ortamlar sağlayan SageMaker Birleşik Stüdyosu ve EMR Stüdyosu ile iş akışınızı modernleştirin. Optimize edilmiş PySpark kodu oluşturmak ve karmaşık yürütme planlarında (DAG'ler) gerçek zamanlı olarak sorun gidermek için Amazon Q Geliştirici'den yararlanın. Standart Spark'ın aksine, EMR, sunucusuz uygulamalarınız veya geçici kümeleriniz sonlandırıldıktan sonra bile iş günlüklerini analiz etmenize ve hata ayıklamanıza olanak tanıyan bir Kalıcı Spark kullanıcı arayüzü sağlar. Bu kalıcılık, üretim ortamlarında denetim ve sürekli performans ayarlaması için kritik öneme sahiptir.

EMR Sunucusuz, anında açılan bir dizüstü bilgisayar deneyimi sağlayarak operasyonel uyumsuzluğu ortadan kaldırır. Artık kümeleri sağlamanıza, ölçeklemenize veya yönetmenize gerek yok. Amazon SageMaker Birleşik Stüdyosu veya JupyterLab gibi tercih ettiğiniz geliştirme ortamını bir EMR Sunucusuz uygulamasına ekleyerek sorgulamaya başlayabilirsiniz. Spark için EMR çalışma zamanı, etkileşimli kodunuzun üretim işlem hatlarınızla aynı kurumsal düzey hızında çalışmasını sağlar. İster petabaytlarca S3 verisi üzerinde geçici veri keşfi gerçekleştiriyor olun ister karmaşık özellik mühendisliği görevleri çalıştırıyor olun, Amazon EMR en kritik veri bilimi iş akışlarınızı hızlandırmak için gereken sorunsuz, yüksek performanslı ortamı sağlar.

Apache Spark yükseltme temsilcisi, PySpark ve Scala uygulamalarındaki API değişikliklerini ve davranış değişikliklerini otomatik olarak tanımlar. Mühendisler, MCP (Model Bağlam Protokolü) uyumluluğu yardımıyla doğrudan SageMaker Birleşik Stüdyosu veya IDE'den yükseltmeleri başlatabilirler. Temsilci, yükseltme işlemi sırasında mevcut kodu analiz eder ve belirli değişiklikler önerir ve mühendisler uygulamadan önce bunları gözden geçirir ve onaylar. Temsilci, veri kalitesi doğrulamaları yoluyla işlevsel doğruluğu onaylar. Temsilci şu anda Spark 2.4'ten 3.5'e yükseltmeleri destekler ve yükseltme işlemi boyunca veri işleme doğruluğunu korur.

Kullanım örnekleri

EMR'de Spark Streaming ile Amazon Kinesis, Apache Kafka veya diğer veri akışlarından gerçek zamanlı verileri kullanın ve işleyin. Hata toleranslı bir yöntemle akış analizi gerçekleştirin ve sonuçları S3 veya küme üzerindeki HDFS'ye yazın.

EMR'de Apache Spark, çeşitli ölçeklenebilir makine öğrenimi algoritmaları sunan MLlib'i içerir. Dilerseniz kendi kitaplıklarınızı da kullanabilirsiniz. Spark, iş sırasında veri kümelerini bellek içinde depolayarak makine öğrenimi iş yüklerinde sık kullanılan yinelemeli sorgular için yüksek performans sunar. Notebook bulut sunucusunu kolay eğitim modelleri ve barındırma modelleri için Amazon SageMaker Spark ile Amazon EMR üzerinde çalışan bir Apache Spark kümesine bağlayarak Amazon SageMaker kapasitesini iyileştirebilirsiniz.

SQL veya HiveQL ile düşük gecikme süresine sahip etkileşimli sorgular için Spark SQL hizmetini kullanabilirsiniz. EMR’de Spark, EMRFS hizmetinden faydalanabildiği için S3 üzerindeki veri kümelerinize anlık erişim sağlayabilirsiniz. Ayrıca ODBC ve JDBC bağlantıları sayesinde EMR Studio, EMR Notebooks'u, Zeppelin not defterlerini veya BI araçlarını kullanabilirsiniz.

Müşteri başarısı

Yelp

Yelp’in reklam hedefleme ekibi, kullanıcının bir reklamla etkileşim kurma ihtimalini belirlemek için tahmine dayalı modeller tasarlamaktadır. Yelp, makine öğrenimi modellerini eğitmek için çok miktarda veriyi işlemek üzere Amazon EMR’de Apache Spark hizmetinden faydalanarak geliri ve reklam tıklama oranını artırmayı başarmıştır.

The Washington Post

The Washington Post, Amazon EMR’de Apache Spark’ı kullanarak okuyucu etkileşimini ve memnuniyetini artırma amacıyla web sitesinin öneri altyapısını geliştirmek için modeller oluşturuyor. Şirket, modelleri neredeyse gerçek zamanlı olarak güncellemek için Amazon EMR’nin yüksek performanslı Amazon S3 bağlantısından faydalanıyor.

Krux

Krux, müşteri öngörüleri için Veri Yönetim Platformunun bir parçası olarak Apache Spark ile birçok makine öğrenimi ve genel işleme iş yükü çalıştırmaktadır. Krux Amazon EC2 Spot kapasitesi ile Amazon EMR kümelerini kullanarak maliyet tasarrufu gerçekleştirmekte ve Apache Spark veri katmanı olarak EMRFS ile Amazon S3 hizmetinden faydalanmaktadır.

Devamını okuyun

GumGum

Görüntü ve ekran içi reklam platformu olan GumGum, Amazon EMR’de Apache Spark hizmetini kullanarak envanter tahmini, tıklama oranı günlüklerinin işlenmesi ve Amazon S3 hizmetindeki yapılandırılmamış verilerin anlık analiz edilmesi işlemlerini gerçekleştirmektedir. Spark’ın performans geliştirmeleri sayesinde GumGum, bu iş akışlarında zamandan ve paradan tasarruf etmeyi başarmıştır.

Devamını okuyun

Hearst Corporation

Geniş ölçekli bir medya ve bilgi şirketi olan Hearst Corporation, 200’den fazla web mülkündeki içeriği görüntüleyen müşterilere sahiptir. Amazon EMR’de Apache Spark hizmetinin akış özelliklerinden faydalanan Hearst şirketinin editör ekibi, yüksek performansa sahip olan makaleleri ve yükselişte olan konuları gerçek zamanlı olarak takip edebilmektedir.

Devamını okuyun

CrowdStrike

CrowdStrike, ihlalleri durdurmak için uç nokta koruma hizmeti sunmaktadır. Şirket, Amazon EMR’de Apache Spark hizmetini kullanarak yüzlerce terabayt boyutundaki olay verilerini işlemekte ve konaklarla ilgili daha yüksek düzeyde davranış açıklamaları haline dönüştürmektedir. CrowdStrike bu verilerden olay verilerini toplayabilmekte ve kötü niyetli etkinlikleri tespit edebilmektedir.

Devamını okuyun