ตัวแปลงในปัญญาประดิษฐ์คืออะไร

ตัวแปลง (Transformer) เป็นสถาปัตยกรรมนิวรัลเน็ตเวิร์กชนิดหนึ่งที่แปลงหรือเปลี่ยนลำดับอินพุตเป็นลำดับเอาต์พุต ซึ่งทำเช่นนี้ได้โดยการเรียนรู้บริบทและติดตามความสัมพันธ์ระหว่างองค์ประกอบตามลำดับ ตัวอย่างเช่น ลองพิจารณาลำดับอินพุตนี้ดู: “สีของท้องฟ้าคือสีอะไร” แบบจำลองตัวแปลงใช้การแสดงทางคณิตศาสตร์ภายในที่ระบุความเกี่ยวข้องและความสัมพันธ์ระหว่างคำว่า สี ท้องฟ้า และสีฟ้า ซึ่งใช้ความรู้นั้นเพื่อสร้างผลลัพธ์ว่า “้ท้องฟ้าเป็นสีฟ้า” 

องค์กรใช้แบบจำลองตัวแปลงสำหรับการแปลงลำดับทุกประเภท ตั้งแต่การจดจำคำพูด ไปจนถึงการแปลด้วยเครื่องและการวิเคราะห์ลำดับโปรตีน

อ่านเกี่ยวกับนิวรัลเน็ตเวิร์ก

อ่านข้อมูลเกี่ยวกับปัญญาประดิษฐ์ (AI)

เพราะเหตุใด Transformer จึงมีความสำคัญ

โมเดลดีปเลิร์นนิงในช่วงต้นที่มุ่งเน้นงานการประมวลผลภาษาธรรมชาติ (NLP) อย่างครอบคลุม โดยมุ่งเป้าไปที่การทำให้คอมพิวเตอร์เข้าใจและตอบสนองต่อภาษาธรรมชาติของมนุษย์ โมเดลนี้จะเดาคำถัดไปในลำดับที่อิงตามคำก่อนหน้า

เพื่อให้เข้าใจได้ง่ายขึ้น ให้พิจารณาคุณสมบัติการเติมคำโดยอัตโนมัติในสมาร์ทโฟนของคุณ ซึ่งให้คำแนะนำตามความถี่ของคู่คำที่คุณพิมพ์ ตัวอย่างเช่น หากคุณพิมพ์ "I am fine" บ่อย ๆ โทรศัพท์ของคุณจะแนะนำคำว่า fine โดยอัตโนมัติ หลังจากที่คุณพิมพ์ am

โมเดลแมชชีนเลิร์นนิง (ML) ในช่วงต้น ใช้เทคโนโลยีที่คล้ายกันในระดับที่กว้างขึ้น โดยจะแมปความถี่ของความสัมพันธ์ระหว่างคู่คำหรือกลุ่มคำต่าง ๆ ในชุดข้อมูลการฝึกและพยายามเดาคำถัดไป อย่างไรก็ตาม เทคโนโลยีในยุคต้น ๆ ยังไม่สามารถเก็บบริบทเกินความยาวอินพุตที่กำหนดได้ ตัวอย่างเช่น โมเดล ML ยุคแรก ๆ ไม่สามารถสร้างย่อหน้าที่มีความหมายได้ เนื่องจากไม่สามารถเก็บบริบทระหว่างประโยคแรกและประโยคสุดท้ายในย่อหน้าได้ ในการสร้างเอาต์พุต เช่น "I am from Italy I like horse riding. I speak Italian." โมเดลต้องจำความเชื่อมโยงระหว่างอิตาลีกับภาษาอิตาลี ซึ่งนิวรัลเน็ตเวิร์กในยุคแรก ๆ ไม่สามารถทำได้

โมเดล Transformer จะเปลี่ยนเทคโนโลยี NLP โดยพื้นฐานด้วยการทำให้โมเดลสามารถจัดการกับความพึ่งพาระยะไกลในข้อความได้ ต่อไปนี้เป็นประโยชน์เพิ่มเติมของ Transformer

เปิดใช้งานโมเดลขนาดใหญ่

Transformer จะประมวลผลลำดับที่มีความยาวอย่างครบถ้วนด้วยการประมวลผลแบบขนาน ซึ่งจะลดเวลาทั้งการฝึกและการประมวลผลได้อย่างมีนัยสำคัญ สิ่งนี้ทำให้สามารถฝึกโมเดลภาษาขนาดใหญ่ (LLM) มากได้ เช่น GPT และ BERT ซึ่งสามารถเรียนรู้การแสดงข้อมูลภาษาที่ซับซ้อน โดยมีพารามิเตอร์หลายพันล้านรายการที่บันทึกภาษาและความรู้ของมนุษย์ที่หลากหลาย และพวกเขากำลังผลักดันการวิจัยไปสู่ระบบ AI ที่ใช้ได้ในวงกว้างมากขึ้น

อ่านเกี่ยวกับโมเดลภาษาขนาดใหญ่

อ่านเกี่ยวกับ GPT

เปิดใช้งานการปรับแต่งที่เร็วขึ้น

โมเดล Trasnformer จะช่วยให้คุณสามารถใช้เทคนิคต่าง ๆ ได้ เช่น การเรียนรู้การถ่ายโอนและการสร้างที่เพิ่มการดึงข้อมูล (RAG) เทคนิคเหล่านี้ช่วยให้สามารถปรับแต่งโมเดลที่มีอยู่สำหรับแอปพลิเคชันเฉพาะองค์กรอุตสาหกรรม สามารถฝึกโมเดลล่วงหน้าบนชุดข้อมูลขนาดใหญ่ แล้วปรับแต่งชุดข้อมูลสำหรับงานเฉพาะซึ่งมีขนาดเล็กกว่า วิธีนี้ทำให้การใช้โมเดลที่ซับซ้อนเป็นประชาธิปไตยและขจัดข้อ จำกัดด้านทรัพยากรในการฝึกโมเดลขนาดใหญ่ตั้งแต่เริ่มต้น โมเดลสามารถทำงานได้ดีในหลายโดเมนและงานสำหรับกรณีการใช้งานต่าง ๆ

อำนวยความสะดวกในระบบ AI แบบมัลติโมดัล

การใช้ Transformer จะทำให้คุณสามารถใช้ AI สำหรับงานที่รวมชุดข้อมูลที่ซับซ้อนเข้าด้วยกันได้ ตัวอย่างเช่น โมเดลอย่าง DALL-E แสดงให้เห็นว่า Transformer สามารถสร้างภาพจากคำอธิบายข้อความ โดยการรวมความสามารถ NLP และความสามารถด้านคอมพิวเตอร์วิทัศน์เข้าด้วยกัน การใช้ Transformer จะทำให้คุณสามารถสร้างแอปพลิเคชัน AI ที่ผสานรวมข้อมูลประเภทต่าง ๆ และเลียนแบบความเข้าใจและความคิดสร้างสรรค์ของมนุษย์ได้อย่างใกล้เคียงมากขึ้น

อ่านเกี่ยวกับคอมพิวเตอร์วิชัน

การวิจัย AI และนวัตกรรมอุตสาหกรรม

Transformer สร้างเทคโนโลยี AI รุ่นใหม่และการวิจัย AI ผลักดันการขยายขอบเขตของสิ่งที่เป็นไปได้ใน ML ความสำเร็จของพวกเขาสร้างแรงบันดาลใจให้กับสถาปัตยกรรมและแอปพลิเคชันใหม่เพื่อแก้ปัญหาด้านนวัตกรรม โดยจะช่วยให้เครื่องจักรเข้าใจและสร้างภาษาของมนุษย์ ซึ่งจะส่งผลให้เกิดแอปพลิเคชันที่ช่วยเพิ่มพูนประสบการณ์ของลูกค้าและสร้างโอกาสใหม่ ๆ ทางธุรกิจ

กรณีการใช้งานสำหรับ Transformer มีอะไรบ้าง

คุณสามารถฝึกโมเดล Transformer ขนาดใหญ่บนข้อมูลตามลำดับใด ๆ เช่น ภาษาของมนุษย์ องค์ประกอบเพลง ภาษาโปรแกรม และอื่น ๆ ตัวอย่างกรณีใช้งานมีดังนี้

การประมวลผลภาษาธรรมชาติ

Transformer ช่วยให้เครื่องสามารถเข้าใจ ตีความ และสร้างภาษาของมนุษย์ในลักษณะที่แม่นยำกว่าเดิม โดยจะสามารถสรุปเอกสารขนาดใหญ่และสร้างข้อความที่สอดคล้องกันและเกี่ยวข้องกับบริบทสำหรับกรณีการใช้งานทุกประเภท ผู้ช่วยเสมือน เช่น Alexa ใช้เทคโนโลยี Transformer เพื่อทำความเข้าใจและตอบสนองต่อคำสั่งเสียง

การแปลภาษาด้วยเครื่อง

แอปพลิเคชันการแปลใช้ Transformer เพื่อให้คำแปลภาษาแบบเรียลไทม์และแม่นยำ Transformer ได้ปรับปรุงความลื่นไหลและความแม่นยำในการแปลอย่างมีนัยสำคัญเมื่อเทียบกับเทคโนโลยีก่อนหน้านี้

อ่านเกี่ยวกับการแปลภาษาด้วยเครื่อง

การวิเคราะห์ลำดับดีเอ็นเอ

การปฏิบัติกับเซกเมนต์ของดีเอ็นเอในฐานะที่เป็นลำดับที่คล้ายกับภาษา ทำให้ Transformer สามารถคาดการณ์ผลกระทบของการกลายพันธุ์ทางพันธุกรรม ทำความเข้าใจรูปแบบทางพันธุกรรม และช่วยระบุส่วนของ DNA ที่เป็นที่มาของโรคบางชนิด ความสามารถนี้มีความสำคัญสำหรับยาเฉพาะบุคคล ซึ่งการทำความเข้าใจเกี่ยวกับองค์ประกอบทางพันธุกรรมของแต่ละบุคคลสามารถนำไปสู่การรักษาที่มีประสิทธิภาพมากขึ้น

การวิเคราะห์โครงสร้างโปรตีน

โมเดล Transformer สามารถประมวลผลข้อมูลตามลำดับ ซึ่งทำให้เหมาะอย่างยิ่งสำหรับการสร้างโมเดลสายยาวของกรดอะมิโนที่พับเป็นโครงสร้างโปรตีนที่ซับซ้อน การทำความเข้าใจโครงสร้างโปรตีนเป็นสิ่งสำคัญสำหรับการค้นพบยาและการทำความเข้าใจกระบวนการทางชีวภาพ นอกจากนี้คุณยังสามารถใช้ Transformer ในแอปพลิเคชันที่คาดการณ์โครงสร้าง 3 มิติของโปรตีนโดยอิงตามลำดับกรดอะมิโน

Transformer ทำงานอย่างไร

นิวรัลเน็ตเวิร์กเป็นวิธีการชั้นนำในงาน AI ต่าง ๆ เช่น การจดจำภาพและ NLP มาตั้งแต่ต้นทศวรรษ 2000 ซึ่งประกอบด้วยเลเยอร์ของโหนดการประมวลผลที่เชื่อมต่อกันหรือเซลล์ประสาทที่เลียนแบบสมองของมนุษย์และทำงานร่วมกันเพื่อแก้ปัญหาที่ซับซ้อน

นิวรัลเน็ตเวิร์กแบบดั้งเดิมที่จัดการกับลำดับข้อมูลมักจะใช้รูปแบบสถาปัตยกรรมตัวเข้ารหัส/ถอดรหัส ตัวเข้ารหัสอ่านและประมวลผลลำดับข้อมูลอินพุตทั้งหมด เช่น ประโยคภาษาอังกฤษ และแปลงเป็นการนำเสนอทางคณิตศาสตร์ขนาดกะทัดรัด การแสดงข้อมูลนี้เป็นบทสรุปที่บันทึกสาระสำคัญของอินพุต จากนั้น ตัวถอดรหัสจะใช้การสรุปนี้และสร้างลำดับเอาต์พุตทีละขั้นตอน ซึ่งอาจเป็นประโยคเดียวกันกับประโยคที่แปลเป็นภาษาฝรั่งเศส

กระบวนการนี้เกิดขึ้นตามลำดับซึ่งหมายความว่าต้องประมวลผลแต่ละคำหรือแต่ละส่วนของข้อมูลทีละรายการ กระบวนการนี้ช้าและอาจสูญเสียรายละเอียดปลีกย่อยในระยะทางไกล

กลไกของ Self-attention

โมเดล Transformer จะปรับเปลี่ยนกระบวนการนี้โดยการรวมสิ่งที่เรียกว่ากลไกของ Self-attention เข้าด้วยกัน แทนที่จะประมวลผลข้อมูลตามลำดับ กลไกนี้จะช่วยให้โมเดลสามารถดูส่วนต่าง ๆ ของลำดับทั้งหมดในคราวเดียว และกำหนดว่าส่วนใดมีความสำคัญที่สุด 

ลองนึกภาพว่าคุณอยู่ในห้องที่วุ่นวายและพยายามฟังใครบางคนพูด สมองของคุณมุ่งเน้นไปที่เสียงของคน ๆ นั้นโดยอัตโนมัติ และจะไม่ค่อยได้ยินเสียงที่ไม่สำคัญ Self-attention ช่วยให้โมเดลสามารถทำสิ่งที่คล้ายกันได้: ให้ความสนใจกับข้อมูลที่เกี่ยวข้องมากขึ้นและรวมเข้าด้วยกันเพื่อให้คาดการณ์เอาต์พุตได้ดีขึ้น กลไกนี้ทำให้ Transformer มีประสิทธิภาพมากขึ้น ทำให้สามารถรับการฝึกในชุดข้อมูลที่มีขนาดใหญ่ขึ้นได้ นอกจากนี้ยังมีประสิทธิภาพมากขึ้น โดยเฉพาะอย่างยิ่งเมื่อต้องจัดการกับข้อความที่ยาวมาก ซึ่งบริบทจากข้อมูลย้อนหลังอาจมีอิทธิพลต่อความหมายของสิ่งที่กำลังจะเกิดขึ้นต่อไป

คอมโพเนนต์ของสถาปัตยกรรมTransformer มีอะไรบ้าง

สถาปัตยกรรมนิวรัลเน็ตเวิร์กของ Transformer มีหลายเลเยอร์ซอฟต์แวร์ที่ทำงานร่วมกันเพื่อสร้างเอาต์พุตขั้นสุดท้าย ภาพต่อไปนี้แสดงคอมโพเนนต์ของสถาปัตยกรรมการเปลี่ยนแปลงตามที่อธิบายไว้ในส่วนที่เหลือของส่วนนี้


การฝังอินพุต

ขั้นตอนนี้จะแปลงลำดับอินพุตเป็นโดเมนทางคณิตศาสตร์ที่อัลกอริทึมซอฟต์แวร์เข้าใจ ในตอนแรก ลำดับอินพุตจะถูกแยกย่อยออกเป็นชุดของโทเค็นหรือคอมโพเนนต์แต่ละลำดับ ตัวอย่างเช่น หากอินพุตเป็นประโยค โทเค็นจะเป็นคำ จากนั้นการฝังจะแปลงลำดับโทเค็นเป็นลำดับเวกเตอร์ทางคณิตศาสตร์ เวกเตอร์มีข้อมูลเชิงความหมายและไวยากรณ์ซึ่งแสดงข้อมูลเป็นตัวเลข และระบบจะเรียนรู้จากแอตทริบิวต์ของเวกเตอร์ในระหว่างกระบวนการฝึก

คุณสามารถแสดงภาพเวกเตอร์เป็นชุดพิกัดในพื้นที่ n มิติได้ ยกตัวอย่างง่าย ๆ ลองนึกถึงกราฟสองมิติโดยที่ x แสดงค่าตัวอักษรและตัวเลขของตัวอักษรตัวแรกของคำและ y แสดงถึงหมวดหมู่ คำว่า banana มีค่า (2,2) เพราะเริ่มด้วยตัวอักษร b และอยู่ในหมวดหมู่ fruit คำว่า mango มีค่า (13,2) เพราะเริ่มต้นด้วยตัวอักษร m และอยู่ในหมวดหมู่ผลไม้ ด้วย วิธีนี้ เวกเตอร์ (x, y) จะบอกนิวรัลเน็ตเวิร์กว่าคำว่า banana และ mango อยู่ในหมวดหมู่เดียวกัน 

ตอนนี้ลองนึกภาพพื้นที่ มิติที่มีแอตทริบิวต์หลายพันรายการเกี่ยวกับไวยากรณ์ ความหมาย และการใช้งานของคำใด ๆ ในประโยคที่แมปกับชุดตัวเลข ซอฟต์แวร์สามารถใช้ตัวเลขเพื่อคำนวณความสัมพันธ์ระหว่างคำในแง่ของคณิตศาสตร์และเข้าใจโมเดลภาษามนุษย์ การฝังเป็นวิธีในการแสดงข้อมูลโทเค็นที่ไม่ต่อเนื่องเป็นเวกเตอร์ต่อเนื่องที่โมเดลสามารถประมวลผลและเรียนรู้ได้

การเข้ารหัสตามตำแหน่ง

การเข้ารหัสตามตำแหน่งเป็นคอมโพเนนต์ที่สำคัญในสถาปัตยกรรม Transformer เนื่องจากตัวโมเดลเองจะไม่ประมวลผลข้อมูลตามลำดับโดยธรรมชาติ Transformer จำเป็นต้องมีวิธีการพิจารณาลำดับของโทเค็นในลำดับของอินพุต การเข้ารหัสตามตำแหน่งจะเพิ่มข้อมูลให้การฝังของโทเค็นแต่ละรายการเพื่อระบุตำแหน่งในลำดับ ซึ่งมักจะดำเนินการโดยการใช้ชุดของฟังก์ชันที่สร้างสัญญาณตามตำแหน่งที่ไม่ซ้ำกันซึ่งจะเพิ่มเข้าไปในการฝังของแต่ละโทเค็น การเข้ารหัสตามตำแหน่งจะทำให้โมเดลสามารถรักษาลำดับของโทเค็นและเข้าใจบริบทของลำดับ

บล็อกTransformer

โมเดล Transformer ทั่วไปมีบล็อก Transformer หลายบล็อกเรียงซ้อนกัน บล็อกTransformer แต่ละตัวมีคอมโพเนนต์หลักสองรายการ ได้แก่ กลไกของ Self-attention แบบหลายหัวและนิวรัลเน็ตเวิร์กในเลเยอร์ Position-Wise Feed-Forward กลไกของ Self-attention ช่วยให้โมเดลสามารถประเมินความสำคัญของโทเค็นต่าง ๆ ภายในลำดับได้ โดยจะมุ่งเน้นไปที่ส่วนที่เกี่ยวข้องของอินพุตเมื่อทำการคาดการณ์

ตัวอย่างเช่น พิจารณาประโยค "Speak no lies" และ "He lies down" ในทั้งสองประโยคนี้เราจะไม่สามารถเข้าใจความหมายของคำว่า lies ได้หากไม่ดูที่คำถัดไป คำว่า speck และ down มีความสำคัญต่อการเข้าใจความหมายที่ถูกต้อง Self-attention จะช่วยให้สามารถจัดกลุ่มโทเค็นที่เกี่ยวข้องสำหรับบริบทได้

เลเยอร์ feed-forward มีคอมโพเนนต์เพิ่มเติมที่ช่วยให้โมเดล Transformer สามารถฝึกและทำงานได้อย่างมีประสิทธิภาพมากขึ้น ตัวอย่างเช่น บล็อกTransformer แต่ละรายการประกอบด้วย:

  • การเชื่อมต่อระหว่างสองคอมโพเนนต์หลักที่ทำหน้าที่เหมือนทางลัด ซึ่งจะทำให้เกิดการไหลของข้อมูลจากส่วนหนึ่งของเครือข่ายไปยังอีกส่วนหนึ่ง โดยการข้ามการดำเนินการบางอย่างในระหว่างทาง
  • การทำให้เลเยอร์โดยเฉพาะอย่างยิ่งเอาต์พุตของเลเยอร์ต่าง ๆ ในเครือข่ายอยู่ในรูปแบบที่เป็นบรรทัดฐานสำหรับเก็บตัวเลขภายในช่วงที่แน่นอน เพื่อให้โมเดลฝึกได้อย่างราบรื่น
  • ปรับฟังก์ชันการแปลงให้เป็นเชิงเส้นเพื่อให้โมเดลสามารถปรับค่าให้ทำงานที่ได้รับการฝึกได้ดีขึ้น เช่น สรุปเอกสารซึ่งตรงข้ามกับการแปล

บล็อกเชิงเส้นและซอฟต์แม็กซ์

ในที่สุดแล้ว โมเดลจำเป็นต้องคาดการณ์อย่างเป็นรูปธรรม เช่น การเลือกคำถัดไปในลำดับ นี่คือจุดที่บล็อกเชิงเส้นเข้ามามีบทบาท เป็นอีกเลเยอร์หนึ่งที่เชื่อมต่ออย่างเต็มรูปแบบ หรือที่เรียกว่า Dense layer ก่อนขั้นตอนสุดท้าย ซึ่งจะทำการแมปเชิงเส้นที่เรียนรู้จากพื้นที่เวกเตอร์กับโดเมนอินพุตต้นฉบับ เลเยอร์ที่สำคัญนี้คือจุดที่การตัดสินใจของโมเดลใช้การแสดงข้อมูลภายในที่ซับซ้อนและเปลี่ยนกลับไปเป็นการคาดการณ์เฉพาะที่คุณสามารถตีความและใช้งานได้ เอาต์พุตของเลเยอร์นี้เป็นชุดคะแนน (มักจะเรียกกันว่า logits) สำหรับแต่ละโทเค็นที่เป็นไปได้

ฟังก์ชัน softmax เป็นขั้นตอนสุดท้ายที่รับคะแนน logit และทำให้อยู่ในรูปแบบมาตรฐานของการกระจายความน่าจะเป็น แต่ละองค์ประกอบของเอาต์พุต softmax แสดงถึงความเชื่อมั่นของโมเดลในคลาสหรือโทเค็นเฉพาะ

Transformer แตกต่างจากสถาปัตยกรรมนิวรัลเน็ตเวิร์กอื่น ๆ อย่างไรบ้าง

นิวรัลเน็ตเวิร์กแบบวนกลับ (RNN) และนิวรัลเน็ตเวิร์กแบบคอนโวลูชัน (CNN) เป็นนิวรัลเน็ตเวิร์กอื่น ๆ ที่ใช้บ่อยในงานแมชชีนเลิร์นนิงและดีปเลิร์นนิง รายการต่อไปนี้เป็นการสำรวจความสัมพันธ์ที่มีกับ Transformer

Transformers เทียบกับ RNN

โมเดล Transformer และ RNN ต่างก็เป็นสถาปัตยกรรมที่ใช้สำหรับการประมวลผลข้อมูลตามลำดับ

RNN ประมวลผลลำดับข้อมูลทีละองค์ประกอบในการทำซ้ำแบบวงจร กระบวนการเริ่มต้นด้วยเลเยอร์อินพุตที่ได้รับองค์ประกอบแรกของลำดับ จากนั้นข้อมูลจะถูกส่งไปยังเลเยอร์ที่ซ่อนอยู่และทำหน้าที่ประมวลผลอินพุตและส่งเอาต์พุตไปยังขั้นตอนของครั้งถัดไป เอาต์พุตนี้จะถูกป้อนกลับไปยังเลเยอร์ที่ซ่อนอยู่ เมื่อนำไปรวมกับองค์ประกอบถัดไปของลำดับ วงจรนี้จะทำซ้ำสำหรับแต่ละองค์ประกอบในลำดับ โดยที่ RNN จะรักษาเวกเตอร์สถานะที่ซ่อนอยู่ ซึ่งจะได้รับการอัปเดตทุกระยะขั้นของตัวแปรเวลา กระบวนการนี้ช่วยให้ RNN สามารถจดจำข้อมูลจากอินพุตในอดีตได้อย่างมีประสิทธิภาพ

ในทางตรงกันข้าม Transformer จะประมวลผลลำดับทั้งหมดพร้อมกัน การทำงานแบบคู่ขนานนี้จะช่วยให้ฝึกได้เร็วขึ้นมากและสามารถจัดการลำดับได้ยาวกว่า RNN มาก นอกจากนี้กลไกของ Self-attention ใน Transformer ยังช่วยให้โมเดลสามารถพิจารณาลำดับข้อมูลทั้งหมดพร้อมกันได้ ซึ่งจะช่วยขจัดความจำเป็นที่จะต้องมีเวกเตอร์แบบวนกลับหรือเวกเตอร์ที่ซ่อนไว้ การเข้ารหัสตามตำแหน่งจะรักษาข้อมูลเกี่ยวกับตำแหน่งของแต่ละองค์ประกอบในลำดับแทน

Transformer แทนที่ RNN เป็นจำนวนมากในการใช้งานหลายอย่าง โดยเฉพาะอย่างยิ่งในงาน NLP เนื่องจากสามารถจัดการกับการพึ่งพาระยะไกลได้อย่างมีประสิทธิภาพมากกว่า นอกจากนี้ยังมีความสามารถในการปรับขนาดและประสิทธิภาพที่ดีกว่า RNN ด้วย RNN ยังคงมีประโยชน์ในบางบริบทโดยเฉพาะอย่างยิ่งในกรณีที่ขนาดของโมเดลและประสิทธิภาพในการประมวลผลมีความสำคัญมากกว่าการบันทึกปฏิสัมพันธ์ทางไกล

Transformers เทียบกับ CNN

CNN ได้รับการออกแบบมาเพื่อข้อมูลที่คล้ายกริด เช่น ภาพ ซึ่งลำดับของที่ว่างและตำแหน่งที่ตั้งเป็นกุญแจสำคัญ โดยจะใช้เลเยอร์แบบคอนโวลูชันในการใช้ตัวกรองกับทั่วทั้งอินพุต บันทึกรูปแบบในเครื่องผ่านมุมมองที่กรองเหล่านี้ ตัวอย่างเช่น ในการประมวลผลภาพ เลเยอร์เริ่มต้นอาจตรวจจับขอบหรือพื้นผิว และเลเยอร์ที่ลึกขึ้นจะจดจำโครงสร้างที่ซับซ้อนมากขึ้น เช่น รูปร่างหรือวัตถุ

Transformer ได้รับการออกแบบมาเพื่อจัดการกับข้อมูลตามลำดับเป็นหลักและไม่สามารถประมวลผลภาพได้ ตอนนี้โมเดล Vision Transformer กำลังประมวลผลภาพโดยการแปลงเป็นรูปแบบตามลำดับ อย่างไรก็ตาม CNN ยังคงเป็นตัวเลือกที่มีประสิทธิภาพและมีประสิทธิภาพสูงสำหรับแอปพลิเคชันคอมพิวเตอร์วิทัศน์ที่ใช้งานได้จริงจำนวนมาก

โมเดล Transformer มีประเภทอะไรบ้าง

Transformer ค่อย ๆ พัฒนาสู่การเป็นตระกูลสถาปัตยกรรมที่หลากหลาย ต่อไปนี้เป็นโมเดล Transformer บางส่วน

Transformer แบบสองทิศทาง

การแสดงข้อมูลตัวเข้ารหัสแบบสองทิศทางจากโมเดล Transformer (BERT) จะแก้ไขสถาปัตยกรรมพื้นฐานเพื่อประมวลผลคำที่เกี่ยวข้องกับคำอื่น ๆ ทั้งหมดในประโยคแทนที่จะแยกกัน ในทางเทคนิคแล้ว จะใช้กลไกที่เรียกว่าโมเดลภาษาที่ปกปิดคำแบบสองทิศทาง (MLM) ในระหว่างการฝึกล่วงหน้า BERT สุ่มปกปิดโทเค็นอินพุตบางส่วนและคาดการณ์โทเค็นที่ปิดบังข้อมูลเหล่านี้โดยอิงตามบริบท แง่มุมแบบสองทิศทางมาจากความจริงที่ว่า BERT คำนึงถึงลำดับโทเค็นจากซ้ายไปขวาและขวาไปซ้ายในทั้งสองเลเยอร์เพื่อความเข้าใจที่ดีขึ้น

Transformer ที่ได้รับการฝึกล่วงหน้าให้ช่วยสร้าง

โมเดล GPT ใช้ตัวถอดรหัส Transformer แบบเรียงซ้อนกันซึ่งได้รับการฝึกล่วงหน้าในคลังข้อความขนาดใหญ่โดยการใช้วัตถุประสงค์การสร้างโมเดลภาษา ซึ่งจะถดถอยโดยอัตโนมัติ หมายความว่าโมเดลจะถดถอยหรือคาดการณ์ค่าถัดไปในลำดับโดยอิงตามค่าก่อนหน้าทั้งหมด การใช้พารามิเตอร์มากกว่า 175 พันล้านรายการ ทำให้โมเดล GPT สามารถสร้างลำดับข้อความที่ปรับตามสไตล์และโทนได้ โมเดล GPT ได้กระตุ้นการวิจัยใน AI เพื่อมุ่งบรรลุผลในด้านปัญญาประดิษฐ์ทั่วไป ซึ่งหมายความว่าองค์กรสามารถไปถึงอีกขั้นของผลิตภาพไปพร้อม ๆ กับการสร้างแอปพลิเคชันและประสบการณ์ของลูกค้าในรูปแบบใหม่

Transformer แบบสองทิศทางและแบบออโตรีเกรสซีฟ

Transformer แบบสองทิศทางและแบบออโตรีเกรสซีฟ (BART) เป็นโมเดล Transformer ประเภทหนึ่งที่รวมคุณสมบัติแบบสองทิศทางและแบบออโตรีเกรสซีฟเข้าด้วยกัน ซึ่งก็เหมือนกับการผสมผสานระหว่างตัวเข้ารหัสแบบสองทิศทางของ BERT และตัวถอดรหัสแบบออโตรีเกรสซีฟของ GPT โมเดลนี้จะอ่านลำดับอินพุตทั้งหมดพร้อมกันและเป็นแบบสองทิศทางเช่น BERT อย่างไรก็ตาม โมเดลนี้จะสร้างลำดับเอาต์พุตครั้งละหนึ่งโทเค็นโดยมีเงื่อนไขตามโทเค็นที่สร้างขึ้นก่อนหน้านี้และอินพุตที่ได้รับจากตัวเข้ารหัส

Transformer สำหรับงานมัลติโมดัล

โมเดล Transformer แบบมัลติโมดัล เช่น ViLBERT และ VisualBERT ได้รับการออกแบบมาเพื่อจัดการกับข้อมูลอินพุตหลายประเภท โดยทั่วไปแล้วจะเป็นข้อความและภาพ โมเดลนี้จะขยายสถาปัตยกรรม Transformer โดยการใช้เครือข่ายสตรีมคู่ที่ประมวลผลอินพุตภาพและข้อความโดยแยกจากกันก่อนที่จะรวมข้อมูล การออกแบบนี้ช่วยให้โมเดลสามารถเรียนรู้การแสดงข้อมูลแบบข้ามโมดัลได้ ตัวอย่างเช่น ViLBERT ใช้เลเยอร์ Transformer แบบให้ความสนใจร่วม เพื่อให้สตรีมที่แยกกันโต้ตอบกันได้ ซึ่งสำคัญมากสำหรับสถานการณ์ที่การทำความเข้าใจความสัมพันธ์ระหว่างข้อความและภาพเป็นปัจจัยหลัก เช่น งานตอบคำถามด้วยภาพ

Vision Transformer

Vision Transformer (ViT) นำสถาปัตยกรรม Transformer มาเปลี่ยนไปใช้สำหรับงานการจำแนกภาพ แทนที่จะประมวลผลภาพเป็นตารางของพิกเซล โมเดลนี้จะดูข้อมูลภาพเป็นลำดับของแพตช์ขนาดคงที่ ซึ่งคล้ายกับวิธีการปฏิบัติต่อคำในประโยค แต่ละแพตช์จะถูกปรับให้เป็นแนวนอนและฝังแบบเชิงเส้น แล้วประมวลผลตามลำดับโดยตัวเข้ารหัสของ Transformer มาตรฐาน มีการเพิ่มการฝังตามตำแหน่งเพื่อรักษาข้อมูลเชิงพื้นที่ การใช้เทคนิค Self-attention ทั่วโลกนี้จะช่วยให้โมเดลสามารถบันทึกความสัมพันธ์ระหว่างแพตช์คู่ใดก็ได้โดยไม่ต้องคำนึงถึงตำแหน่ง

AWS สามารถรองรับข้อกำหนดรุ่นตัวแปลงของคุณได้อย่างไร

Amazon Web Services (AWS) นำเสนอบริการ AI/ML ต่อไปนี้ที่คุณสามารถใช้สำหรับข้อกำหนดของรุ่นตัวแปลงของคุณ

Amazon SageMaker JumpStart เป็นฮับ ML ที่คุณสามารถเข้าถึงโมเดลของตัวแปลงที่ได้รับการฝึกล่วงหน้า เพื่อทำงานต่าง ๆ เช่น การสรุปบทความและการสร้างภาพ โมเดลที่ได้รับการฝึกล่วงหน้าสามารถปรับแต่งได้อย่างเต็มที่สำหรับกรณีการใช้งานของคุณด้วยข้อมูลของคุณ และคุณสามารถปรับใช้โมเดลเหล่านี้ในการใช้งานจริงได้อย่างง่ายดายด้วยอินเทอร์เฟซผู้ใช้หรือ SDK

Amazon Bedrock เป็นบริการที่มีการจัดการอย่างเต็มรูปแบบซึ่งเสนอโมเดลตัวแปลงประสิทธิภาพสูงให้เลือกจากบริษัท AI ชั้นนำ เช่น AI21 Labs, Anthropic, Cohere, Meta, Stability AI และ Amazon ด้วย API เดียว ด้วยความสามารถที่หลากหลายที่คุณต้องการในการสร้างแอปพลิเคชัน AI ช่วยสร้าง Amazon Bedrock ช่วยลดความยุ่งยากในการพัฒนาในขณะที่รักษาความเป็นส่วนตัวและความปลอดภัย ตัวอย่างเช่น คุณสามารถ:

  • ทดลองกับโมเดลพื้นฐานชั้นนำที่หลากหลายได้อย่างง่ายดายและปรับแต่งแบบส่วนตัวด้วยข้อมูลของคุณ
  • สร้างเอเจนต์ที่มีการจัดการที่ทำงานทางธุรกิจที่ซับซ้อนทั้งหมดโดยไม่ต้องเขียนโค้ดใด ๆ
  • ผสานรวมและปรับใช้ความสามารถ AI ช่วยสร้างในแอปพลิเคชันของคุณได้อย่างปลอดภัยโดยไม่จำเป็นต้องจัดการโครงสร้างพื้นฐาน

นอกจากนี้ คุณยังสามารถฝึกโมเดลตัวแปลงของคุณได้เร็วขึ้นโดยใช้ AWS Trainium ซึ่งเป็นตัวเร่ง ML รุ่นที่สองที่ AWS สร้างขึ้นเพื่อการฝึกดีปเลิร์นนิงของโมเดลพารามิเตอร์มากกว่า 100 พันล้านรายการ อินสแตนซ์ Amazon Elastic Compute Cloud (Amazon EC2) Trn1 แต่ละตัวจะปรับใช้ตัวเร่งความเร็วของ Trainium สูงสุด 16 ตัวเพื่อนำเสนอโซลูชันประสิทธิภาพสูงและต้นทุนต่ำสำหรับการฝึกแบบดีปเลิร์นนิงในระบบคลาวด์ 

เริ่มต้นด้วยโมเดลตัวแปลงบน AWS โดยการสร้างบัญชีวันนี้

ขั้นตอนถัดไปบน AWS

ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที

ลงชื่อสมัครใช้งาน 
เริ่มต้นการสร้างในคอนโซล

เริ่มต้นสร้างในคอนโซลการจัดการของ AWS

ลงชื่อเข้าใช้