Altyapı Modeli Nedir?
Devasa veri kümeleri üzerinde eğitilmiş altyapı modelleri (FM'ler), veri bilimcilerinin makine öğrenimine (ML) yaklaşım şeklini değiştiren büyük derin öğrenme sinir ağlarıdır. Sıfırdan yapay zeka (AI) geliştirmek yerine veri bilimcileri, yeni uygulamaları daha hızlı ve uygun maliyetli bir şekilde destekleyen ML modelleri geliştirmek için başlangıç noktası olarak bir altyapı modeli kullanırlar. Altyapı modeli terimi, araştırmacılar tarafından geniş bir genelleştirilmiş ve etiketlenmemiş veri yelpazesi üzerinde eğitilmiş ve dili anlama, metin ve görüntü oluşturma ve doğal dilde konuşma gibi çok çeşitli genel görevleri yerine getirebilen ML modellerini tanımlamak için oluşturulmuştur.
Altyapı modellerini benzersiz kılan nedir?
Altyapı modellerinin benzersiz bir özelliği uyarlanabilir olmalarıdır. Bu modeller, giriş istemlerine dayalı olarak yüksek derecede doğrulukla birbirinden çeşitli farklı görevleri gerçekleştirebilir. Bazı görevler arasında doğal dil işleme (NLP), soru cevaplama ve görüntü sınıflandırması bulunur. FM'lerin boyutu ve genel amaçlı yapısı, onları duyarlılık için metni analiz etme, görüntüleri sınıflandırma ve eğilimleri tahmin etme gibi genel olarak belirli görevleri yerine getiren geleneksel ML modellerinden farklı kılar.
Daha özel aşağı akış uygulamaları geliştirmek için altyapı modellerini temel modeller olarak kullanabilirsiniz. Bu modeller, boyutlarının ve karmaşıklıklarının artmasını sağlayan on yıldan fazla süren çalışmaların ürünüdür.
Örneğin ilk çift yönlü altyapı modellerinden biri olan BERT, 2018'de piyasaya sürüldü. 340 milyon parametre ve 16 GB'lık bir eğitim veri kümesi kullanılarak eğitildi. 2023 yılında, yani sadece beş yıl sonra OpenAI, 170 trilyon parametre ve 45 GB'lık bir eğitim veri kümesi kullanarak GPT-4'ü eğitti. OpenAI'a göre, altyapı modeli oluşturma için gereken hesaplama gücü 2012'den bu yana her 3,4 ayda bir iki katına çıktı. Büyük dil modelleri (LLM'ler) Claude 2 ve Llama 2 ile Stability AI'ın metni görüntüye dönüştüren modeli Stable Diffusion gibi günümüzün FM'leri; blog gönderileri yazma, görüntü oluşturma, matematik problemleri çözme, diyalog kurma ve bir belgeye dayalı soruları yanıtlama gibi birden çok alanı kapsayan son derece özgün görevleri gerçekleştirebilir.
Altyapı modeli oluşturma neden önemlidir?
Altyapı modelleri, makine öğrenimi yaşam döngüsünü önemli ölçüde değiştirmeye hazırdırlar. Şu anda sıfırdan bir altyapı modeli geliştirmek milyonlarca dolara mal olsa da uzun vadede oldukça faydalıdırlar. Veri bilimcilerinin, benzersiz ML modellerini sıfırdan eğitmek yerine yeni ML uygulamaları geliştirmek için önceden eğitilmiş FM'leri kullanması daha hızlı ve daha ucuzdur.
Potansiyel kullanımlardan biri, özellikle akıl yürütme yetenekleri gerektiren modeller olmak üzere görevleri ve süreçleri otomatik hâle getirmektir. Altyapı modelleri için bazı uygulamalar aşağıda verilmiştir:
- Müşteri desteği
- Çeviri
- İçerik oluşturma
- Metin yazarlığı
- Görüntü sınıflandırması
- Yüksek çözünürlüklü görüntü oluşturma ve düzenleme
- Belge ayıklama
- Robotik
- Sağlık Hizmetleri
- Otonom araçlar
Altyapı modelleri nasıl çalışır?
Altyapı modelleri, üretici yapay zekânın bir biçimidir. İnsan dili talimatları şeklinde bir veya daha fazla girişten (istem) çıktı üretirler. Modeller, çekişmeli üretici ağlar (GAN'ler), dönüştürücüler ve varyasyonel kodlayıcılar dâhil olmak üzere karmaşık sinir ağlarına dayanmaktadır.
Her ağ türü farklı şekilde çalışsa da çalışma prensipleri benzerdir. Genel olarak FM, dizideki bir sonraki ögeyi tahmin etmek için öğrenilmiş kalıpları ve ilişkileri kullanır. Örneğin, görüntü oluşturma sayesinde model, görüntüyü analiz eder ve görüntünün daha keskin, daha net tanımlı bir versiyonunu oluşturur. Benzer şekilde, metin sayesinde model, önceki kelimelere ve bağlamına göre bir metin dizesindeki bir sonraki kelimeyi tahmin eder. Daha sonra olasılık dağılım tekniklerini kullanarak bir sonraki kelimeyi seçer.
Altyapı modelleri, giriş verilerinden etiketler oluşturmak için kendi kendine denetimli öğrenmeyi kullanır. Bu, hiç kimsenin etiketli eğitim veri kümeleriyle modele talimat vermediği veya modeli eğitmediği anlamına gelir. Bu özellik, LLM'leri denetimli veya denetimsiz öğrenmeyi kullanan önceki ML mimarilerinden ayırır.
Altyapı modelleri ne yapabilir?
Altyapı modelleri, önceden eğitilmiş olsalar bile çıkarım sırasında veri girişlerinden veya istemlerinden öğrenmeye devam edebilir. Bu, özenle seçilmiş istemler aracılığıyla kapsamlı çıktılar geliştirebileceğiniz anlamına gelir. FM'lerin gerçekleştirebileceği görevler arasında dil işleme, görsel anlama, kod oluşturma ve insan merkezli etkileşim yer almaktadır.
Dil işleme
Bu modeller, doğal dil sorularını yanıtlamak için olağanüstü özelliklere ve hatta istemlere yanıt olarak kısa betikler veya makaleler yazma becerisine sahiptir. Ayrıca NLP teknolojilerini kullanarak dilleri başka bir dile çevirebilirler.
Görsel anlama
FM'ler, özellikle görüntüleri ve fiziksel nesneleri tanımlama açısından bilgisayarla görüde mükemmeldir. Bu özellikler, otonom sürüş ve robotik gibi uygulamalarda kullanılabilir. Diğer bir özellik, giriş metninden görüntülerin oluşturulmasının yanı sıra fotoğraf ve video düzenlemedir.
Kod oluşturma
Altyapı modelleri, doğal dil girişlerine dayalı olarak çeşitli programlama dillerinde bilgisayar kodu üretebilir. Kodu değerlendirmek ve hatalarını ayıklamak için FM'leri kullanmak da mümkündür. Yapay zeka kod oluşturma hakkında daha fazla bilgi edinin.
İnsan merkezli etkileşim
Üretici yapay zekâ modelleri, tahminleri öğrenmek ve iyileştirmek için insan girişlerini kullanır. Önemli ve bazen göz ardı edilen bir uygulama, bu modellerin insanların karar verme sürecini destekleme özelliğidir. Olası kullanımlar arasında klinik teşhisler, karar destek sistemleri ve analizler yer almaktadır.
Diğer bir özellik, mevcut altyapı modellerinde ince ayar yaparak yeni yapay zekâ uygulamalarının geliştirilmesidir.
Konuşmayı metne dönüştürme
FM'ler dili anladığından çeşitli dillerde deşifre ve video alt yazısı gibi konuşmayı metne dönüştürme görevleri için kullanılabilirler.
Altyapı modellerin örnekleri nelerdir?
Piyasadaki altyapı modellerin sayısı ve büyüklüğü hızlı bir şekilde artmıştır. Artık onlarca model mevcuttur. Aşağıda, 2018'den beri piyasaya sürülen önde gelen altyapı modellerinin bir listesini görebilirsiniz.
BERT
2018'de piyasaya sürülen Transformers'tan Çift Yönlü Kodlayıcı Temsilleri (Bidirectional Encoder Representations from Transformers - BERT), ilk altyapı modellerinden biriydi. BERT, tam bir dizinin bağlamını analiz eden ve ardından bir tahminde bulunan çift yönlü bir modeldir. 3,3 milyar belirteç (kelime) ve 340 milyon parametre kullanılarak düz metin kitaplığı ve Vikipedi ile eğitildi. BERT soruları cevaplayabilir, cümleleri tahmin edebilir ve metinleri çevirebilir.
GPT
Üretici Önceden Eğitilmiş Dönüştürücü (Generative Pre-trained Transformer - GPT) modeli, 2018 yılında OpenAI tarafından geliştirildi. Bu model, öz dikkat mekanizmasına sahip 12 katmanlı bir dönüştürücü kod çözücüsü kullanır. Ayrıca 11.000'den fazla ücretsiz roman içeren BookCorpus veri kümesinde eğitilmiştir. GPT-1'in dikkate değer bir özelliği, sıfır atışlı öğrenme yapabilme yeteneğidir.
GPT-2, 2019'da piyasaya sürülmüştür. OpenAI, 1,5 milyar parametre (GPT-1'de kullanılan 117 milyon parametreye kıyasla) kullanarak bu modeli eğitti. GPT-3, 96 katmanlı bir sinir ağına ve 175 milyar parametreye sahip olup 500 milyar kelimelik Common Crawl veri kümesi kullanılarak eğitilmiştir. Popüler ChatGPT sohbet robotu, GPT-3.5'e dayanmaktadır. Ayrıca en son sürüm olan GPT-4, 2022'nin sonlarında piyasaya sürülmüş ve Uniform Bar Examination sınavını 297 puanla (%76) başarıyla geçmiştir.
GPT hakkında daha fazla bilgi edinin »
Amazon Titan
Amazon Titan FM'leri, büyük veri kümeleri üzerinde önceden eğitilmiş olduklarından güçlü ve genel amaçlı modellerdir. Büyük hacimli verilere açıklama eklemeden belirli bir görev için olduğu gibi kullanılabilir veya şirkete özgü verilerle özel olarak özelleştirilebilir. Titan, başlangıçta iki model sunacaktır. Birincisi; özetleme, metin oluşturma, sınıflandırma, açık uçlu soru-cevap ve bilgi ayıklama gibi görevler için üretici bir LLM'dir. İkincisi; kelimeler, ifadeler ve büyük metin birimleri de dâhil metin girdilerini metnin semantik anlamını içeren sayısal temsillere (katıştırma olarak bilinir) çeviren bir katıştırma LLM'sidir. Bu LLM metin oluşturmayacak olsa da katıştırmaları karşılaştırarak model kelime eşleştirmeden daha alakalı ve bağlamsal yanıtlar üreteceğinden kişiselleştirme ve arama gibi uygulamalar için kullanışlıdır. Yapay zekânın sorumlu kullanımında en iyi uygulamaları desteklemeye devam etmek için Titan FM'ler, verilerdeki zararlı içeriği tespit edip kaldırmak, kullanıcı girdilerindeki uygunsuz içerikleri reddetmek ve modellerin nefret söylemi, küfür ve şiddet gibi uygunsuz içerik içeren çıktılarını filtrelemek için oluşturulmuştur.
AI21 Jurassic
2021'de piyasaya sürülen Jurassic-1, 178 milyar parametreye sahip 76 katmanlı özbağlanımlı bir dil modelidir. Jurassic-1, insan benzeri metinler oluşturur ve karmaşık görevleri çözer. Performansı GPT-3 ile karşılaştırılabilir.
AI21 Labs, 2023'ün Mart ayında talimat takibi ve dil özellikleri geliştirilen Jurrassic-2'yi piyasaya sürdü.
Claude
Claude 3.5 Sonnet
Anthropic'in en akıllı ve gelişmiş modeli olan Claude 3.5 Sonnet, çok çeşitli görev ve değerlendirmelerde olağanüstü yetenekler sergilerken aynı zamanda Claude 3 Opus'tan daha iyi performans gösteriyor.
Claude 3 Opus
Opus, karmaşık görevlerde güvenilir performansa sahip son derece akıllı bir modeldir. Açık uçlu istemleri ve görülemeyen senaryoları olağanüstü bir akıcılık ve insan benzeri bir kavrayışla idare edebilir. Çok çeşitli kullanım örnekleri ve sektörlerde görevleri otomatikleştirmek, araştırma ve geliştirmeyi hızlandırmak için Opus'u kullanın.
Claude 3 Haiku
Haiku, Anthropic'in neredeyse anında yanıt veren en hızlı ve en kompakt modelidir. Haiku, insan etkileşimlerini taklit eden kusursuz yapay zeka deneyimleri oluşturmak için en iyi seçimdir. İşletmeler içeriği denetlemek, envanter yönetimini optimize etmek, hızlı ve doğru çeviriler üretmek, yapılandırılmamış verileri özetlemek ve daha fazlası için Haiku'yu kullanabilir.
Cohere
Cohere, iki LLM'ye sahiptir: Biri GPT-3 ile benzer özelliklere sahip bir oluşturma modeli, diğeri ise dilleri anlamaya yönelik bir temsil modelidir. Cohere, sadece 52 milyar parametreye sahipken birçok açıdan GPT-3'ten daha iyi performans gösteriyor.
Stable Diffusion
Stable Diffusion, gerçekçi görünümlü ve yüksek çözünürlüklü görüntüler oluşturabilen bir metinden görüntüye dönüştürme modelidir. 2022'de piyasaya sürülmüştür ve görüntülerin nasıl oluşturulacağını öğrenmek için gürültü oluşturma ve gürültü temizleme teknolojilerini kullanan bir difüzyon modeline sahiptir.
Model, DALL-E 2 gibi rakip difüzyon teknolojilerinden daha küçüktür; bu da kapsamlı bir bilgi işlem altyapısına ihtiyaç duymadığı anlamına gelir. Stable Diffusion, normal bir grafik kartında veya hatta Snapdragon Gen2 platformlu bir akıllı telefonda çalışır.
Stable Diffusion hakkında daha fazla bilgi edinin »
BLOOM
BLOOM, GPT-3'e benzer mimariye sahip çok dilli bir modeldir. 2022 yılında binden fazla bilim insanını ve Hugging Space ekibini içeren ortak bir çalışmanın sonucunda geliştirildi. Model, 176 milyar parametreye sahiptir ve 384 Nvidia A100 GPU kullanılarak üç buçuk ayda eğitilmiştir. BLOOM kontrol noktası 330 GB depolama alanı gerektirse de 16 GB RAM'e sahip bağımsız bir bilgisayarda çalışabilir. BLOOM, 46 dilde metin oluşturabilir ve 13 programlama dilinde kod yazabilir.
Hugging Face
Hugging Face, makine öğrenimi modelleri oluşturmanız ve dağıtmanız için açık kaynaklı araçlar sunan bir platformdur. Bir topluluk merkezi görevi görür ve geliştiriciler, modelleri ve veri kümelerini paylaşıp keşfedebilirler. Bireyler için üyelik ücretsizdir ancak daha yüksek erişim seviyeleri sunan ücretli abonelikleri de vardır. Yaklaşık 200.000 modele ve 30.000 veri kümesine erişebilirsiniz.
Altyapı modelleriyle ilgili zorluklar nelerdir?
Altyapı modelleri, açıkça eğitilmedikleri konulardaki istemlere tutarlı bir şekilde yanıt verebilir. Ama bazı zayıf yönleri vardır. Altyapı modellerinin karşılaştığı zorluklardan bazıları şunlardır:
- Altyapı gereksinimleri. Sıfırdan bir altyapı modeli oluşturmak pahalıdır, muazzam kaynaklar gerektirir ve eğitimi aylar sürebilir.
- Ön uç geliştirme. Pratik uygulamalar için geliştiricilerin, altyapı modellerini istem mühendisliği, ince ayar yapma ve işlem hattı mühendisliği araçları da dâhil olmak üzere bir yazılım yığınına entegre etmeleri gerekir.
- Anlama eksikliği. Dil bilgisel ve olgusal olarak doğru cevaplar verebilmelerine rağmen altyapı modelleri, bir istemin bağlamını anlamakta güçlük çekerler. Aynı zamanda sosyal veya psikolojik olarak farkındalıkları yoktur.
- Güvenilir olmayan cevaplar. Belirli konulardaki soruların cevapları, güvenilir olmayabilir ve bazen uygunsuz, zararlı veya yanlış olabilir.
- Ön yargı. Modeller, eğitim veri kümelerinden nefret söylemi ve uygunsuz imalı ifadeleri ayırabildiğinden sonuçların ön yargı içerme olasılığı belirgindir. Bunu önlemek için geliştiriciler, eğitim verilerini dikkatli şekilde filtrelemeli ve belirli normları modellerine kodlamalıdırlar.
AWS Size Nasıl Yardımcı Olabilir?
Amazon Bedrock, altyapı modelleriyle üretici yapay zekâ uygulamaları oluşturma ve ölçeklendirmenin en kolay yoludur. Amazon Bedrock, kullanım örneğinize en uygun modeli bulmak üzere çeşitli altyapı modelleri (FM) arasından seçim yapabilmeniz için Amazon'un ve önde gelen yapay zekâ girişimlerinin FM'lerini bir API aracılığıyla kullanıma sunan, tam olarak yönetilen bir hizmettir. Bedrock sayesinde, altyapıyı yönetmeden ölçeklenebilir, güvenilir ve güvenli üretici yapay zekâ uygulamaları geliştirme ve dağıtma süreçlerini hızlandırabilirsiniz.
Modeller, algoritmalar ve çözümler sunan bir ML merkezi olan Amazon SageMaker JumpStart, genel kullanıma sunulmuş en iyi performans gösteren altyapı modelleri de dâhil olmak üzere yüzlerce altyapı modeline erişim sağlar. Llama 2, Falcon ve Stable Diffusion XL 1.0 dâhil olmak üzere yeni temel modeller eklenmeye devam ediyor.