Bagaimana Patronus AI membantu perusahaan lebih percaya diri menggunakan AI generatif

Bagaimana konten ini?

Dalam beberapa tahun terakhir, dan terutama sejak diluncurkannya ChatGPT pada tahun 2022, potensi transformasional kecerdasan buatan (AI) generatif menjadi makin nyata bagi berbagai organisasi dan industri. Gelombang adopsi berikutnya sudah dimulai, dengan banyaknya perusahaan berlomba-lomba untuk mengadopsi alat AI generatif guna meningkatkan efisiensi dan pengalaman pelanggan. Menurut laporan McKinsey tahun 2023, AI generatif diperkirakan dapat menambah nilai ekonomi global sebesar 2,6 triliun USD hingga 4,4 triliun USD setiap tahun, meningkatkan dampak ekonomi AI secara keseluruhan sekitar 15-40 persen. Survei terbaru CEO dari IBM juga menunjukkan bahwa 50 persen responden sudah mengintegrasikan AI generatif ke dalam produk dan layanan mereka.

Namun, dengan popularitas AI generatif yang makin meningkat, pelanggan dan bisnis kini makin mengekspresikan kekhawatiran terhadap keandalan dan kepercayaan teknologi ini. Tidak jelas mengapa input tertentu menghasilkan output tertentu, sehingga perusahaan menghadapi kesulitan dalam mengevaluasi hasil dari sistem AI generatif mereka. Patronus AI, perusahaan yang didirikan oleh pakar machine learning (ML) Anand Kannappan dan Rebecca Qian, berusaha untuk mengatasi masalah ini. Dengan platform evaluasi dan keamanan otomatis berbasis AI-nya, Patronus membantu pelanggan menggunakan model bahasa besar (LLM) dengan percaya diri dan bertanggung jawab, sambil meminimalkan risiko kesalahan. Misi perusahaan rintisan ini adalah membuat model AI lebih dapat dipercaya dan mudah digunakan. Menurut Anand, “Ini menjadi pertanyaan besar dalam setahun terakhir. Setiap perusahaan ingin menggunakan model bahasa, tetapi mereka khawatir dengan risiko dan keandalan cara kerjanya, terutama untuk kasus penggunaan yang sangat spesifik. Misi kami adalah meningkatkan kepercayaan perusahaan terhadap AI generatif.”

Memaksimalkan manfaat dan mengelola risiko AI generatif

AI generatif adalah tipe AI yang menggunakan ML untuk menghasilkan data baru yang mirip dengan data yang digunakan untuk melatihnya. Dengan mempelajari pola dan struktur dari set data input, AI generatif menghasilkan konten asli seperti gambar, teks, dan bahkan baris kode. Aplikasi AI generatif didukung oleh model ML yang telah dilatih sebelumnya dengan jumlah data yang sangat besar, terutama LLM yang dilatih dengan triliunan kata dari berbagai tugas bahasa alami.

Potensi manfaat bisnisnya sangat besar. Perusahaan telah menunjukkan minat dalam menggunakan LLM untuk memanfaatkan data internal mereka sendiri melalui pengambilan, untuk menghasilkan memo dan presentasi, untuk meningkatkan bantuan obrolan otomatis, dan untuk melengkapi pembuatan kode secara otomatis dalam pengembangan perangkat lunak. Anand juga menyoroti berbagai kasus penggunaan lain yang belum terwujud. “Masih banyak industri lain yang belum terpengaruh oleh AI generatif. Kami masih berada di tahap awal dari potensi yang belum terungkapkan..”

Saat organisasi mempertimbangkan untuk meningkatkan penggunaan AI generatif, isu kepercayaan menjadi makin penting. Pengguna ingin memastikan bahwa output yang dihasilkan mematuhi regulasi dan kebijakan perusahaan, sambil menghindari hasil yang tidak aman atau melanggar hukum. Menurut Anand, “Bagi perusahaan besar dan entitas bisnis, terutama di industri yang diatur, ada banyak skenario yang krusial ketika mereka ingin menggunakan AI generatif, tetapi mereka khawatir bahwa kesalahan dapat mengancam reputasi mereka atau bahkan keselamatan pelanggan mereka sendiri.”

Patronus membantu pelanggan mengelola risiko ini dan meningkatkan kepercayaan pada AI generatif dengan meningkatkan kemampuan untuk mengukur, menganalisis, dan bereksperimen dengan performa model yang mereka gunakan. “Intinya adalah memastikan bahwa, terlepas dari cara pengembangan sistem Anda, pengujian dan evaluasi keseluruhan sangat kuat dan terstandardisasi,” kata Anand. “Yang benar-benar kurang saat ini adalah kerangka kerja yang mapan atau terstandardisasi untuk menguji model bahasa dengan cara yang lebih ilmiah, meskipun semua orang ingin menggunakannya.”

Meningkatkan kepercayaan dan performa

Platform otomatis Patronus memungkinkan pelanggan mengevaluasi dan membandingkan performa berbagai LLM dalam skenario dunia nyata, sehingga mengurangi risiko dari hasil yang tidak diinginkan. Patronus menggunakan teknik ML inovatif untuk membantu pelanggan secara otomatis membuat rangkaian uji coba adversarial, serta menilai dan melakukan tolok ukur performa model bahasa berdasarkan kriteria taksonomi yang dimiliki oleh Patronus. Sebagai contoh, set data FinanceBench merupakan tolok ukur pertama di industri untuk menilai performa LLM dalam menjawab pertanyaan terkait keuangan.

“Segala hal yang kami lakukan di Patronus sangat difokuskan untuk membantu perusahaan dalam menangkap kesalahan model bahasa secara lebih efisien dan otomatis,” kata Anand. Banyak perusahaan besar saat ini mengeluarkan biaya besar untuk tim jaminan kualitas internal dan konsultan eksternal, yang secara manual membuat kasus uji dan mengevaluasi output LLM mereka menggunakan spreadsheet. Namun, pendekatan berbasis AI dari Patronus menghemat waktu dan biaya dalam proses yang lambat dan mahal seperti itu.

“Pemrosesan Bahasa Alami (NLP) bersifat cukup empiris, sehingga kami melakukan banyak eksperimen untuk akhirnya menemukan teknik evaluasi yang paling efektif,” jelas Anand. “Bagaimana kami bisa mengintegrasikan hal-hal tersebut ke dalam produk kami agar orang dapat dengan mudah dan cepat memanfaatkan nilai ... dari teknik-teknik terbaik yang kami temukan? Dan bagaimana mereka dapat meningkatkan performa, tidak hanya untuk sistem mereka sendiri, tetapi juga dalam evaluasi terhadap sistem tersebut yang kini dapat mereka lakukan berkat Patronus?”

Ini menghasilkan siklus yang menguntungkan: makin sering perusahaan menggunakan produk dan memberikan umpan balik melalui fitur jempol atas atau jempol bawah, makin baik evaluasinya. Hal ini juga menyebabkan sistem perusahaan tersebut makin berkembang dengan baik.

Meningkatkan kepercayaan melalui hasil yang ditingkatkan dan kemampuan pemahaman yang lebih baik

Untuk memanfaatkan potensi AI generatif, penting untuk meningkatkan keandalannya dan kepercayaannya. Calon pengguna dari berbagai industri dan kasus penggunaan sering kali terhambat, tidak hanya karena terkadang terjadi kesalahan aplikasi AI, tetapi juga karena sulitnya memahami bagaimana atau mengapa masalah tersebut terjadi, serta bagaimana cara menghindari hal tersebut di masa mendatang.

“Yang benar-benar diinginkan semua orang adalah cara yang lebih baik untuk memastikan kepercayaan yang tinggi saat mengimplementasikan sesuatu ke produksi,” ujar Anand. “Ketika produk tersebut dipakai oleh karyawan Anda atau bahkan pelanggan akhir, yang jumlahnya bisa mencapai ratusan, ribuan, atau bahkan puluhan ribu orang, maka Anda ingin memastikan bahwa masalah semacam itu dapat diminimalkan sebanyak mungkin. Dan jika ada masalah yang timbul, Anda ingin tahu kapan dan mengapa hal itu terjadi.”

Salah satu tujuan utama Patronus adalah meningkatkan kemampuan untuk memahami, atau menjelaskan, model AI generatif. Hal ini mencakup kemampuan untuk mengetahui alasan output tertentu dari LLM terbentuk seperti itu, dan bagaimana pelanggan dapat memperoleh lebih banyak kontrol terhadap keandalan hasil tersebut.

Patronus memasukkan fitur-fitur yang bertujuan untuk menjelaskan, terutama dengan memberi pelanggan wawasan langsung mengenai alasan suatu kasus uji tertentu berhasil atau gagal. Menurut Anand: “Ini adalah sesuatu yang kami lakukan dengan penjelasan dalam bahasa alami, dan pelanggan kami memberi tahu kami bahwa mereka menyukainya, karena memberi mereka wawasan cepat tentang kemungkinan alasan sesuatu gagal—dan mungkin juga saran untuk perbaikan tentang bagaimana mereka dapat mengulangi prompt atau nilai parameter generasi, atau bahkan untuk penyempurnaan ... Kemampuan penjelasan kami sangat difokuskan pada proses evaluasi yang sebenarnya.”

Menatap masa depan AI generatif dengan AWS

Untuk membangun aplikasi berbasis cloud mereka, Patronus telah bekerja dengan AWS sejak awal. Patronus menggunakan berbagai layanan berbasis cloud; Amazon Simple Queue Service (Amazon SQS) untuk infrastruktur antrean dan Amazon Elastic Compute Cloud (Amazon EC2) untuk lingkungan Kubernetes, dan mereka memanfaatkan kelebihan kustomisasi dan fleksibilitas yang tersedia dari Amazon Elastic Kubernetes Service (Amazon EKS).

Dengan pengalaman bertahun-tahun bekerja dengan AWS sebelum dia membantu mendirikan Patronus, Anand dan timnya dapat memanfaatkan pemahaman dan pengalaman mereka dengan AWS untuk dengan cepat mengembangkan produk dan infrastruktur mereka. Patronus juga bekerja sama dengan tim solusi yang difokuskan pada perusahaan rintisan di AWS, yang telah “berperan” dalam membantu membangun hubungan dan percakapan. “Aspek yang berfokus pada pelanggan [di AWS] selalu bagus, dan kami tidak pernah menganggap remeh hal tersebut,” kata Anand.

Patronus kini menatap masa dengan dengan optimis, yang dibanjiri dengan minat dan permintaan setelah peluncurannya baru-baru ini dari mode stealth dengan pendanaan awal sebesar 3 juta USD yang dipimpin oleh Lightspeed Venture Par tners. Tim ini juga baru-baru ini mengumumkan tolok ukur pertama untuk performa LLM dalam pertanyaan keuangan, yang dirancang bersama dengan 15 pakar domain industri keuangan.

“Kami sangat bersemangat dengan apa yang akan kami capai di masa mendatang,” kata Anand. “Kami akan terus fokus pada evaluasi dan pengujian AI, untuk membantu perusahaan mengidentifikasi kelemahan dalam model bahasa...dan memahami bagaimana mereka dapat mengukur performa, sehingga akhirnya mereka dapat membangun produk yang lebih baik dengan kepercayaan yang lebih besar di masa mendatang.”

Siap mengeksplorasi manfaat AI generatif dengan keyakinan dan keandalan? Kunjungi Pusat Inovasi AI Generatif AWS untuk mendapatkan panduan perencanaan, dukungan eksekusi, kasus penggunaan AI Generatif—atau solusi lain yang Anda pilih.

Aditya Shahani

Aditya Shahani is a Startup Solutions Architect focused on accelerating early stage startups throughout their journey building on AWS. He is passionate about leveraging the latest technologies to streamline business problems at scale while reducing overhead and cost.

Bonnie McClure

Bonnie adalah editor yang berspesialisasi dalam pembuatan konten yang dapat diakses dan menarik untuk semua audiens dan platform. Dia berdedikasi untuk memberikan panduan editorial yang komprehensif guna memberikan pengalaman pengguna tanpa hambatan. Ketika sedang tidak bekerja, dia senang menghabiskan waktu bersama dua anjing besarnya, melatih keterampilan menjahitnya, atau menguji resep baru di dapur.

Bagaimana konten ini?