Stable Diffusion nedir?
Stable Diffusion, metin ve görüntü istemlerinden benzersiz fotogerçekçi görüntüler oluşturan bir üretici yapay zeka (üretici AI) modelidir. İlk olarak 2022'de piyasaya sürülmüştür. Bu modeli, görüntülerin yanı sıra video ve animasyon oluşturmak için de kullanabilirsiniz. Model, difüzyon teknolojisine dayanmaktadır ve gizli alan kullanır. Bu, işleme gereksinimlerini önemli ölçüde azaltır. Modeli GPU'larla donatılmış masaüstü veya dizüstü bilgisayarlarda çalıştırabilirsiniz. Stable Diffusion'da öğrenme aktarımı yoluyla beş kadar az görüntüyle özel ihtiyaçlarınızı karşılamak için ince ayar yapabilirsiniz.
Stable Diffusion, izinli lisans kapsamında herkes tarafından kullanılabilir. Bu, Stable Diffusion'ı öncellerinden ayırır.
Olay yönetimi neden önemlidir?
Olay yönetimi, BT ekiplerine herhangi bir olaya en uygun yanıtı verme konusunda rehberlik eder. BT ekiplerinin daha fazla bilgi edinmek üzere ilgili tüm ayrıntıları alması için bir sistem oluşturur. Olay yönetimini, iç ve dış istemcilerde minimum kesintiyle normal operasyonları olabildiğince hızlı bir şekilde geri döndürmek için bir kılavuz olarak düşünebilirsiniz.
Sistemler mevcut olmadığında, olay kurtarma kaçınılmaz olarak tekrarlanan hatalara, kaynakların yanlış kullanılmasına ve kuruluş üzerinde daha büyük olumsuz etkilere yol açar. Daha sonra, olay yönetiminden yararlanabileceğiniz bazı yolları açıklayacağız.
Olay oluşumunu azaltın
Bir olay durumunda gözden geçirilecek bir kılavuzu sahip olan ekipler, olayları olabildiğince hızlı çözebilir. Aynı zamanda olay yönetimi, zaman içinde meydana gelen olayları da azaltır. IM sürecinde riskleri erken algıladığınızda gelecekte olay yaşanma olasılığı azalır. Adli soruşturmanın tamamını yakalamak, proaktif iyileştirmeye ve benzer olayların daha sonra meydana gelmesini önlemeye yardımcı olur.
Geliştirilmiş performans
BT olay yönetiminde etkili ve hassas izleme kullandığınızda kalitedeki küçük düşüşleri belirleyebilir ve araştırabilirsiniz. Performansı artırmanın yeni yollarını da keşfedebilirsiniz. Zamanla, BT ekibiniz hizmet olayı tanımlama örüntülerinin kalitesini değerlendirebilir, bu da tahmine dayalı iyileştirme ve sürekli hizmete yol açabilir.
Etkili iş birliği
Genellikle olay kurtarma için farklı ekiplerin birlikte çalışması gerekir. Olay yanıtı çerçevesinde tüm taraflar için iletişim yönergelerini özetleyerek iş birliğini önemli ölçüde artırabilirsiniz. Ayrıca paydaşların duygularını daha etkili bir şekilde yönetebilirsiniz.
Stable Diffusion neden önemlidir?
Stable Diffusion, erişilebilir ve kullanımı kolay olduğu için büyük önem taşır. Tüketici sınıfı grafik kartlarında çalışabilir. İlk defa, model herkes tarafından indirilmeye ve görüntü oluşturmaya açık hâle getirilmiştir. Ayrıca gürültü temizleme adımlarının sayısı ve uygulanan gürültünün derecesi gibi temel hiperparametreler üzerinde de kontrole sahipsiniz.
Stable Diffusion kullanıcı dostudur ve görüntü oluşturmak için ek bilgi gerektirmez. Aktif bir topluluğa sahip olduğundan Stable Diffusion'ın kapsamlı belgeleri ve açıklamalı öğreticileri vardır. Yazılım sürümü, değiştirilmiş yazılımı kullanmanıza, değiştirmenize ve yeniden dağıtmanıza olanak tanıyan Creative ML OpenRAIL-M lisansı altındadır. Türev yazılımı yayınlarsanız aynı lisans altında yayınlamanız ve orijinal Stable Diffusion lisansının bir kopyasını eklemeniz gerekir.
Stable Diffusion nasıl çalışır?
Bir difüzyon modeli olarak Stable Diffusion, diğer birçok görüntü oluşturma modelinden farklıdır. Prensipte, difüzyon modelleri bir görüntüyü kodlamak için Gauss gürültüsünü kullanır. Ardından görüntüyü yeniden oluşturmak için bir ters difüzyon işlemi ile birlikte bir gürültü öngörücü kullanırlar.
Stable Diffusion, bir difüzyon modelinin teknik farklılıklarına sahip olmanın yanı sıra, görüntünün piksel alanını kullanmaması bakımından benzersizdir. Bunun yerine, azaltılmış tanımlı bir gizli alan kullanır.
Bunun nedeni, 512x512 çözünürlüğe sahip renkli bir görüntünün 786.432 olası değere sahip olmasıdır. Karşılaştırıldığında Stable Diffusion, 16.384 değerde 48 kat daha küçük sıkıştırılmış bir görüntü kullanır. Bu, işleme gereksinimlerini önemli ölçüde azaltır. Bu sayede, 8 GB RAM'e sahip NVIDIA GPU'lu bir masaüstünde Stable Diffusion'ı kullanabilirsiniz. Doğal görüntüler rastgele olmadığı için daha küçük gizli alan işe yarar. Stable Diffusion, gözler gibi ince ayrıntıları boyamak için kod çözücüdeki varyasyonel otomatik kodlayıcı (VAE) dosyalarını kullanır.
Stable Diffusion V1, Common Crawl yoluyla LAION tarafından toplanan üç veri kümesi kullanılarak eğitilmiştir. Bu, 6 veya daha yüksek estetik derecelendirmeye sahip görüntülerin LAION-Aesthetics v2.6 veri kümesini içerir.
Stable Diffusion hangi mimariyi kullanır?
Stable Diffusion'ın ana mimari bileşenleri, bir varyasyonel otomatik kodlayıcı, ileri ve geri difüzyon, bir gürültü öngörücü ve metin koşullandırmasını içerir.
Varyasyonel otomatik kodlayıcı
Varyasyonel otomatik kodlayıcı, ayrı bir kodlayıcı ve kod çözücüden oluşur. Kodlayıcı, 512x512 piksel görüntüyü, işlenmesi daha kolay olan gizli alanda daha küçük bir 64x64 modeline sıkıştırır. Kod çözücü, modeli gizli alandan tam boyutlu 512x512 piksel görüntüye geri yükler.
İleri difüzyon
İleri difüzyon, geriye kalan tek şey rastgele gürültü olana kadar görüntüye kademeli olarak Gauss gürültüsü ekler. Son gürültülü görüntüde görüntünün ne olduğunu belirlemek mümkün değildir. Eğitim sırasında tüm görüntüler bu süreçten geçer. İleri difüzyon, görüntüden görüntüye dönüştürme işlemi dışında kullanılmaz.
Ters difüzyon
Bu süreç, esasen ileri difüzyonu yinelemeli olarak geri alan parametrelendirilmiş bir süreçtir. Örneğin, modeli kedi ve köpek gibi sadece iki resimle eğitebilirsiniz. Bu şekilde yaptıysanız ters süreç ya bir kediye ya da köpeğe doğru kayar ve arada hiçbir şey olmaz. Uygulamada, model eğitimi milyarlarca görüntü içerir ve benzersiz görüntüler oluşturmak için istemleri kullanır.
Gürültü öngörücü (U-Net)
Görüntülerdeki gürültüleri temizlemek için bir gürültü öngörücü gerekir. Stable Diffusion, bunu gerçekleştirmek için bir U-Net modeli kullanır. U-Net modelleri, orijinal olarak biyotıp alanında görüntü segmentasyonu için geliştirilmiş evrişimsel sinir ağlarıdır. Özellikle Stable Diffusion, bilgisayarlı görü için geliştirilmiş Artık Sinir Ağı (ResNet) modelini kullanır.
Gürültü öngörücü, gizli alandaki gürültü miktarını tahmin eder ve bunu görüntüden çıkarır. Kullanıcı tarafından belirlenen adımlara göre gürültüyü azaltarak bu işlemi belirli sayıda tekrarlar. Gürültü öngörücü, son görüntünün belirlenmesine yardımcı olan koşullandırma istemlerine duyarlıdır.
Metin koşullandırma
En yaygın koşullandırma biçimi metin istemleridir. Bir CLIP belirteç oluşturucu, metin isteminde her kelimeyi analiz eder ve bu verileri 768 değerinde bir vektöre yerleştirir. Bir istemde en fazla 75 belirteç kullanabilirsiniz. Stable Diffusion, bu istemleri bir metin dönüştürücü kullanarak metin kodlayıcıdan U-Net gürültü öngörücüye besler. Tohumu, rastgele sayı oluşturucu şeklinde ayarlayarak gizli alanda farklı görüntüler oluşturabilirsiniz.
Stable Diffusion ne yapabilir?
Stable Diffusion, metinden görüntüye dönüştürme modeli oluşturmada dikkate değer bir gelişmeyi temsil eder. Geniş çapta kullanılabilir ve diğer birçok metinden görüntüye dönüştürme modeline kıyasla çok daha az işlem gücüne ihtiyaç duyar. Özellikleri arasında metinden görüntüye dönüştürme, görüntüden görüntüye dönüştürme, grafik resim, görüntü düzenleme ve video oluşturma yer alır.
Metinden görüntüye dönüştürme modeli oluşturma
Bu, insanlar için Stable Diffusion kullanmanın en yaygın yoludur. Stable Diffusion, metinsel bir istemi kullanarak bir görüntü oluşturur. Rastgele oluşturucu için tohum numarasını ayarlayarak veya farklı efektler için gürültü temizleme programını değiştirerek farklı görüntüler oluşturabilirsiniz.
Görüntüden görüntüye dönüştürme modeli oluşturma
Bir giriş görüntüsü ve metin istemi kullanarak, bir giriş görüntüsüne dayalı görüntüler oluşturabilirsiniz. Tipik bir durum, bir çizim ve uygun bir istemin kullanılması olabilir.
Grafik, resim ve logo oluşturma
Çeşitli istemleri kullanarak çok çeşitli tarzlarda resim, grafik ve logolar oluşturmak mümkündür. Doğal olarak çıktıyı önceden belirlemek mümkün değildir ancak bir taslak kullanarak logo oluşturmaya rehberlik edebilirsiniz.
Görüntü düzenleme ve rötuşlama
Fotoğrafları düzenlemek ve rötuşlamak için Stable Diffusion'ı kullanabilirsiniz. Yapay Zekâ Düzenleyici'yi kullanarak bir görüntü yükleyin ve düzenlemek istediğiniz alanı maskelemek için bir silgi fırçası kullanın. Ardından ne yapmak istediğinizi tanımlayan bir bilgi istemi oluşturarak resmi düzenleyin veya yeniden boyayın. Örneğin, eski fotoğrafları düzeltebilir, görüntülerden nesneleri kaldırabilir, konu özelliklerini değiştirebilir ve görüntüye yeni unsurlar ekleyebilirsiniz.
Video oluşturma
GitHub'dan Deforum gibi özellikleri kullanarak Stable Diffusion ile kısa video klipler ve animasyonlar oluşturmanız mümkündür. Diğer bir uygulama ise bir filme farklı stiller eklemektir. Akan su gibi bir hareket izlenimi yaratarak fotoğraflara animasyon uygulamanız da mümkündür.
AWS, Stable Diffusion konusunda nasıl yardımcı olabilir?
Amazon Bedrock, altyapı modelleriyle üretici yapay zekâ uygulamaları oluşturma ve ölçeklendirmenin en kolay yoludur. Amazon Bedrock, kullanım örneğinize en uygun modeli bulmak üzere çeşitli altyapı modelleri (FM) arasından seçim yapabilmeniz için Stable Diffusion dâhil önde gelen altyapı modellerini bir API aracılığıyla kullanıma sunan, tam olarak yönetilen bir hizmettir. Bedrock sayesinde, altyapıyı yönetmeden ölçeklenebilir, güvenilir ve güvenli üretici yapay zekâ uygulamaları geliştirme ve dağıtma süreçlerini hızlandırabilirsiniz.
Modeller, algoritmalar ve çözümler sunan bir ML merkezi olan Amazon SageMaker JumpStart, Stable Diffusion gibi genel kullanıma sunulmuş en iyi performans gösteren altyapı modelleri de dâhil olmak üzere yüzlerce altyapı modeline erişim sağlar. Görüntü oluşturma modelinin en son sürümü olan Stable Diffusion XL 1.0 da dâhil olmak üzere yeni altyapı modelleri eklenmeye devam ediyor.