Amazon SageMaker Data Wrangler
Makine öğrenimi için tablo ve görüntü verilerini hazırlamanın en hızlı ve en kolay yoluSageMaker Data Wrangler nedir?
Amazon SageMaker Data Wrangler, makine öğrenimi için tablo ve görüntü verilerini toplama ve hazırlama süresini haftalardan dakikalara indirir. SageMaker Data Wrangler ile veri hazırlığı ve özellik mühendisliği süreçlerini basitleştirebilir, veri hazırlama iş akışının her adımını (veri seçme, temizleme, keşfetme, görselleştirme ve uygun ölçekte işleme dahil) tek bir görsel arabirimden tamamlayabilirsiniz. Çeşitli veri kaynakları arasından istediğiniz verileri seçmek ve hızlı bir şekilde içe aktarmak için SQL'i kullanabilirsiniz. Sonrasında, veri kalitesini otomatik olarak doğrulamak ve yinelenen satırlar ve hedef sızıntısı gibi anormallikleri algılamak için veri kalitesi ve öngörüler raporunu kullanabilirsiniz. SageMaker Data Wrangler, hiçbir kod yazmanıza gerek kalmadan verileri hızlıca dönüştürebilmeniz için 300 adet yerleşik veri dönüşümü içerir.
SageMaker Data Wrangler'ın Avantajları
Nasıl çalışır?
Görüntü açıklamasını büyütün ve okuyun.Daha hızlı veri erişimi, seçimi ve sorgusu
SageMaker Data Wrangler veri seçim aracıyla çeşitli popüler kaynaklardan [ör. Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift, AWS Lake Formation, Snowflake ve Databricks] ve 50'den fazla üçüncü taraf kaynağından (ör. Salesforce, SAP, Facebook Ads ve Google Analytics) tablo ve görüntü verilerine hızlıca erişip bunları seçebilirsiniz. Ayrıca SQL kullanarak veri kaynakları için sorgular yazabilir ve CSV, Parquet ve JSON gibi çeşitli dosya biçimlerinden ve veri tabanı tablolarından verileri doğrudan SageMaker'a aktarabilirsiniz.
Veri öngörüleri oluşturun ve veri kalitesini anlayın
SageMaker Data Wrangler, veri kalitesini otomatik olarak doğrulayan (eksik değerler, yinelenen satırlar ve veri türleri gibi) ve verilerinizdeki anormalliklerin (aykırı veriler, sınıf dengesizliği ve veri sızıntısı gibi) tespit edilmesine yardımcı olan bir veri kalitesi ve öngörüleri raporu sunar. Veri kalitesini etkili bir şekilde doğruladıktan sonra, makine öğrenimi modeli eğitimi için veri kümelerini işlemek üzere etki alanı bilgisini hızlı bir şekilde uygulayabilirsiniz.
Verilerinizi görselleştirerek anlayın
SageMaker Data Wrangler, önceden yapılandırılmış bir dizi güçlü görselleştirme şablonuyla verilerinizi anlamanıza ve ayrıca olası hatalar ile ekstrem değerleri belirlemenize yardımcı olur. Histogramlar, serpme diyagramları, kutu grafikleri, çizgi grafikler ve sütun grafiklerinin tümü, verilerinize uygulamak için kullanıma hazır şekilde mevcuttur. Ayrıca, özellik önemini ve özellik bağıntılarını gösteren daha gelişmiş, makine öğrenimine özgü görselleştirmeler (sapma raporu, özellik bağıntısı, çoklu doğrusal bağlantı, hedef sızıntısı ve zaman serisi gibi) de bulunur. Bu araçlara Analiz sekmesinden erişilebilir.
Verileri daha verimli bir şekilde dönüştürün
SageMaker Data Wrangler, verilerinizi tek bir kod satırı yazmadan dönüştürebilmeniz ve veri hazırlama iş akışınızı ölçeklendirebilmeniz için 300'den fazla önceden oluşturulmuş, PySpark tabanlı veri dönüştürme seçeneği sunar. Önceden yapılandırılmış dönüşümler; JSON dosyalarını düzleştirme, yinelenen satırları silme, eksik verileri ortalama veya orta değerle yükleme, tek-sıcak kodlama ve makine öğrenimi için zaman serisi verilerinin hazırlanmasını hızlandırmak üzere zaman serisine özgü dönüştürücüler gibi yaygın kullanım durumlarını kapsar. SageMaker Data Wrangler, görüntü verileriniz için ortak görüntü artırımları (Bulanıklaştırma, İyileştirme ve Yeniden Boyutlandırma gibi) ve temizleme işlemleri (bozuk görüntüleri ve kopyaları bırakma gibi) sunar. Ayrıca PySpark, SQL ve Pandas'ta özel dönüşümler de yazabilirsiniz. SageMaker Data Wrangler, CV kullanım durumları için özel dönüşümler oluşturmak üzere görüntü (imgaug, OpenCV) kitaplıkları ve özel dönüştürme yazmayı kolaylaştırmak için zengin bir kod parçacığı kitaplığı sunar.
Verilerinizin tahmin gücünü anlayın
SageMaker Data Wrangler Hızlı Model özelliği, verilerinizin beklenen tahmin gücüne yönelik bir tahminde bulunur. Hızlı Model, verilerinizi otomatik olarak eğitim ve test veri kümelerine ayırır ve verileri, varsayılan hiperparametrelerle bir XGBoost modelinde eğitir. Çözdüğünüz göreve bağlı olarak (örneğin sınıflandırma veya regresyon) SageMaker Data Wrangler bir model özeti, özellik özeti ve karışıklık matrisi sağlar ve bu da veri hazırlama akışlarınızı hızlıca yinelemenize yardımcı olur.
ML veri hazırlama iş akışlarını otomatikleştirme ve dağıtma
SageMaker Data Wrangler kullanıcı arabirimi ile PySpark kodu yazmaya, Apache Spark'ı yüklemeye veya kümeleri başlatmaya gerek kalmadan büyük veri kümelerine ölçeklendirme başlatabilirsiniz. Verilerinizi hızlıca işlemek veya bir SageMaker Stüdyo not defterine aktarmak için bir iş başlatabilir ya da planlayabilirsiniz. SageMaker Data Wrangler, SageMaker Data Wrangler işleri, SageMaker Özellik Deposu ve SageMaker İşlem Hatları dahil olmak üzere çeşitli dışa aktarma seçenekleri sunar, böylece veri hazırlama akışınızı makine öğrenimi iş akışınıza entegre edebilirsiniz. Alternatif olarak, veri hazırlama iş akışınızı SageMaker'da barındırılan uç noktaya dağıtabilirsiniz. Son olarak, SageMaker Canvas ile görsel bir arayüz kullanarak makine öğrenimi modelini eğitmek için verileri doğrudan dışa aktarabilirsiniz
Müşteriler
"INVISTA olarak, dönüşümü destekliyoruz ve dünyanın dört bir yanındaki müşterilerimizin faydalanabileceği ürünler ve teknolojiler geliştirmeye önem veriyoruz. Makine öğrenimini müşteri deneyimini iyileştirmenin bir yolu olarak görüyoruz. Ancak yüz milyonlarca satırı kapsayan veri kümeleriyle, verileri hazırlamamıza ve makine öğrenimi modellerini uygun şekilde ölçeklendirmemize, dağıtmamıza ve yönetmemize yardımcı olacak bir çözüme ihtiyacımız vardı. Amazon SageMaker Data Wrangler ile artık verilerimizi etkili bir şekilde seçebilir, temizleyebilir, keşfedebilir ve anlayabiliriz, bu da veri bilimi ekibimizi yüz milyonlarca satıra yayılan veri kümelerine zahmetsizce ölçeklenebilen özellik mühendisliği işlem hatları oluşturma konusunda güçlendirebilir. Amazon SageMaker Data Wrangler ile makine öğrenimi iş akışlarımızı daha hızlı çalıştırabiliyoruz."
Caleb Wilkinson, Eski Baş Veri Bilimcisi, INVISTA
"3M, makine öğrenimini kullanarak zımpara kâğıdı gibi denenip test edilmiş ürünleri iyileştiriyor ve sağlık hizmetleri de dâhil olmak üzere diğer birçok alanda inovasyonu destekliyor. Makine öğrenimini 3M'in diğer alanlarına da ölçeklemeyi düşünürken veri ve model miktarının her yıl ikiye katlanarak hızlıca büyüdüğünü görüyoruz. Ölçeklememize yardımcı olacağı için yeni SageMaker özellikleri konusunda heyecanlıyız. Amazon SageMaker Data Wrangler, model eğitimi için verileri hazırlamayı çok daha kolay hâle getiriyor ve Amazon SageMaker Özellik Deposu, aynı model özelliklerini tekrar tekrar oluşturma ihtiyacını ortadan kaldırıyor. Son olarak, Amazon SageMaker İşlem Hatları; veri hazırlama, model oluşturma ve model dağıtımını uçtan uca bir iş akışında otomatikleştirmemize yardımcı olarak modellerimizin pazara ulaşma hızını artıracak. Araştırmacılarımız, 3M'de bilimin yeni hızının avantajından yararlanmayı dört gözle bekliyor."
David Frazee, Teknik Faaliyetler Eski Direktörü, 3M Corporate Systems Research Lab
"Amazon SageMaker Data Wrangler, yeni ürünleri pazara ulaştırmak için gereken makine öğrenimi verilerini hazırlama sürecini hızlandıran zengin bir dönüşüm araçları koleksiyonuyla veri hazırlama ihtiyaçlarımızı gidererek işimizi yapmamıza yardımcı oluyor. Böylece müşterilerimizin ihtiyaçlarını aylar yerine günler içinde karşılayan ölçülebilir ve sürdürülebilir sonuçlar sunmamıza olanak tanıyan dağıtılmış modellerimizi ölçeklendirme hızımızdan müşterilerimiz de yararlanıyor."
Frank Farrall, Müdür, Yapay Zekâ Ekosistemleri ve Platformları Lideri, Deloitte
"AWS Premier Danışmanlık Hizmetleri Çözüm Ortağı olarak, mühendislik ekiplerimiz, AWS ile yakından çalışarak müşterilerimize operasyonlarının verimliliğini sürekli olarak iyileştirmede yardımcı olacak yenilikçi çözümler oluşturuyor. Makine öğrenimi, yenilikçi çözümlerimizin merkezinde yer alıyor ancak veri hazırlama iş akışımız karmaşık veri hazırlama teknikleri içerdiğinden bir üretim ortamında operasyonel hâle geçmesi için çok uzun süre gerekiyor. Amazon SageMaker Data Wrangler, veri bilimcilerimizin veri seçme, temizleme, keşfetme ve görselleştirme dâhil olmak üzere veri hazırlama iş akışının her adımını tamamlamasını sağlayarak veri hazırlama sürecimizi hızlandırmaya ve verilerimizi makine öğrenimi için kolayca hazırlamaya yardımcı oluyor. Amazon SageMaker Data Wrangler ile verilerimizi makine öğrenimi için daha hızlı hazırlayabiliyoruz."
Shigekazu Ohmoto, Kıdemli Genel Müdür, NRI Japonya
"Nüfus sağlığı yönetimi pazarındaki ayak izimiz daha fazla sağlık hizmeti ödeyici, sağlayıcı, eczane yardımı yöneticisi ve diğer sağlık hizmeti kuruluşlarıyla genişlemeye devam ettikçe talep verileri, kayıt verileri ve eczane verileri dâhil olmak üzere makine öğrenimi modellerimizi besleyen veri kaynaklarına yönelik uçtan uca süreçleri otomatik hâle getirmek için bir çözüme ihtiyacımız oldu. Amazon SageMaker Data Wrangler ile artık doğrulaması ve yeniden kullanımı daha kolay olan bir dizi iş akışı kullanarak verileri makine öğrenimi için toplama ve hazırlama süresini kısaltabiliyoruz. Bu da modellerimizin teslim süresini ve kalitesini büyük ölçüde iyileştirdi, veri bilimcilerimizin verimliliğini artırdı ve veri hazırlama süresini neredeyse %50 oranında azalttı. SageMaker Data Wrangler aynı zamanda eczane, teşhis kodları, acil ziyaretleri, yatan hasta ve hem demografik hem de diğer sosyal belirleyici faktörler dâhil olmak üzere binlerce özellikle veri reyonları oluşturmamıza olanak sağladığından müşterilerimiz için tüm uçtan uca süreci hızlandırarak birçok makine öğrenimi yinelemesinden kurtulmamıza ve GPU süresini büyük ölçüde azaltmamıza yardımcı oldu. SageMaker Data Wrangler sayesinde eğitim veri kümeleri oluşturmak, makine öğrenimi modellerini çalıştırmadan önce veri kümeleriyle ilgili veri öngörüleri ortaya çıkarmak ve uygun ölçekte çıkarım/tahmin için gerçek dünyadan veriler hazırlamak üzere verilerimizi olağanüstü bir verimlilikle dönüştürebiliyoruz."
Lucas Merrow, CEO - Equilibrium Point IoT