Amazon SageMaker Model Training

ฝึกและปรับแต่งโมเดล ML และ AI ช่วยสร้าง

การฝึกโมเดลของ SageMaker คืออะไร

Amazon SageMaker Model Training ช่วยลดเวลาและค่าใช้จ่ายในการฝึกอบรมและปรับแต่งโมเดลแมชชีนเลิร์นนิง (ML) ในทุกระดับโดยไม่จำเป็นต้องจัดการโครงสร้างพื้นฐาน คุณสามารถใช้ประโยชน์จากโครงสร้างพื้นฐานการประมวลผล ML ที่มีประสิทธิภาพสูงสุดที่มีอยู่ในปัจจุบันได้ และ Amazon SageMaker AI สามารถปรับขนาดโครงสร้างพื้นฐานขึ้นหรือลงได้โดยอัตโนมัติ จาก GPU หนึ่งตัวไปจนถึงหลายพันตัว เพื่อฝึกฝนโมเดลดีปเลิร์นนิงได้เร็วขึ้น SageMaker AI จะช่วยให้คุณเลือกและปรับแต่งชุดข้อมูลได้แบบเรียลไทม์ ไลบรารีการฝึกฝนแบบกระจายของ SageMaker สามารถแยกโมเดลขนาดใหญ่และชุดข้อมูลการฝึกทั่วทั้งอินสแตนซ์ AWS GPU ได้โดยอัตโนมัติ หรือคุณสามารถใช้ไลบรารีของบริษัทอื่น เช่น DeepSpeed, Horovod หรือ Megatron ฝึกฝนโมเดลพื้นฐาน (FM) เป็นเวลาหลายสัปดาห์และหลายเดือนโดยไม่มีการหยุดชะงักโดยการตรวจสอบและซ่อมแซมคลัสเตอร์การฝึกฝนแบบอัตโนมัติ

ประโยชน์ของการฝึกฝนที่ประหยัดค่าใช้จ่าย

SageMaker AI มีตัวเลือก GPU และ CPU ให้เลือกมากมาย รวมถึง AWS Accelerator เช่น AWS Trainium และ AWS Inferentia เพื่อเปิดใช้งานการฝึกโมเดลขนาดใหญ่ คุณสามารถปรับขนาดโครงสร้างพื้นฐานขึ้นหรือลงโดยอัตโนมัติ จาก GPU หนึ่งตัวไปจนถึงหลายพันตัว
SageMaker AI ช่วยให้คุณแบ่งโมเดลและชุดข้อมูลการฝึกอบรมของคุณออกเป็นอินสแตนซ์คลัสเตอร์ AWS ได้โดยอัตโนมัติ เพื่อช่วยให้คุณปรับขนาดเวิร์กโหลดการฝึกได้อย่างมีประสิทธิภาพ ช่วยให้คุณเพิ่มประสิทธิภาพงานการฝึกของคุณสำหรับโครงสร้างพื้นฐานเครือข่าย AWS และโทโพโลยีคลัสเตอร์ นอกจากนี้คุณยังสามารถใช้สูตรที่ได้รับการปรับให้เหมาะสมเพื่อรับประโยชน์จากประสิทธิภาพที่ล้ำสมัยและเริ่มต้นการฝึกอบรมและปรับแต่งโมเดล AI ช่วยสร้างที่เผยแพร่สู่สาธารณะได้อย่างรวดเร็วภายในไม่กี่นาที นอกจากนี้ยังช่วยปรับปรุงจุดตรวจสอบโมเดลผ่านสูตรด้วยการเพิ่มประสิทธิภาพความถี่ในการบันทึกจุดตรวจสอบ เพื่อให้มั่นใจได้ว่ามีค่าใช้จ่ายคงที่น้อยที่สุดระหว่างการฝึก
SageMaker AI สามารถปรับแต่งโมเดลของคุณได้โดยอัตโนมัติโดยจะปรับชุดพารามิเตอร์อัลกอริทึมนับพันรายการเพื่อให้ได้การคาดการณ์ที่แม่นยำที่สุด ใช้เครื่องมือแก้ไขจุดบกพร่องและการทำโปรไฟล์เพื่อแก้ไขปัญหาประสิทธิภาพอย่างรวดเร็วและเพิ่มประสิทธิภาพการฝึกฝน
SageMaker AI ช่วยให้การทดลอง ML มีประสิทธิภาพเพื่อช่วยให้คุณติดตามการทำซ้ำโมเดล ML ได้ง่ายขึ้น ปรับปรุงประสิทธิภาพการฝึกโมเดลโดยการแสดงภาพสถาปัตยกรรมโมเดลเพื่อระบุและแก้ไขปัญหาการบรรจบกัน

ฝึกฝนโมเดลในทุกระดับ

งานฝึกที่มีการจัดการอย่างเต็มรูปแบบ

งานฝึกของ SageMaker มอบประสบการณ์ผู้ใช้ที่มีการจัดการอย่างเต็มรูปแบบสำหรับการฝึก FM แบบกระจายขนาดใหญ่ โดยขจัดภาระหนักที่ซ้ำซ้อนกันในการจัดการโครงสร้างพื้นฐาน งานฝึกของ SageMaker จะสร้างคลัสเตอร์การฝึกแบบกระจายที่มีความยืดหยุ่นโดยอัตโนมัติ ตรวจสอบโครงสร้างพื้นฐาน และกู้คืนอัตโนมัติจากข้อผิดพลาดเพื่อให้แน่ใจว่าประสบการณ์การฝึกนั้นจะเป็นไปอย่างราบรื่น เมื่อการฝึกเสร็จสิ้น SageMaker จะนำคลัสเตอร์ดังกล่าวออก และคุณจะถูกเรียกเก็บเงินสำหรับเวลาฝึกสุทธิ นอกจากนี้ ด้วยงานฝึกของ SageMaker คุณจะมีความยืดหยุ่นในการเลือกประเภทอินสแตนซ์ที่เหมาะสมเพื่อให้เหมาะกับเวิร์กโหลดแต่ละรายการมากที่สุด (เช่น ฝึกโมเดลภาษาขนาดใหญ่ (LLM) ล่วงหน้าบนคลัสเตอร์ P5 หรือปรับแต่ง LLM แบบโอเพนซอร์สบนอินสแตนซ์ p4d) เพื่อปรับงบประมาณการฝึกของคุณให้เหมาะสมต่อไป นอกจากนี้ งานฝึกของ SagerMaker ยังมอบประสบการณ์ผู้ใช้ที่เป็นไปในทิศทางเดียวกันภายในทีม ML ที่มีระดับความเชี่ยวชาญทางเทคนิคและประเภทเวิร์กโหลดที่แตกต่างกัน

เรียนรู้เพิ่มเติม

SageMaker HyperPod

Amazon SageMaker HyperPod เป็นโครงสร้างพื้นฐานที่สร้างขึ้นตามวัตถุประสงค์เพื่อจัดการคลัสเตอร์การประมวลผลเพื่อปรับขนาดการพัฒนาโมเดลพื้นฐาน (FM) ได้อย่างมีประสิทธิภาพ ช่วยให้สามารถใช้เทคนิคการฝึกโมเดลขั้นสูง การควบคุมโครงสร้างพื้นฐาน การเพิ่มประสิทธิภาพการทำงาน และข้อมูลการสังเกตโมเดลที่ได้รับการปรับปรุง SageMaker HyperPod ได้รับการกำหนดค่าล่วงหน้าด้วยไลบรารีการฝึกแบบกระจายของ SageMaker ซึ่งช่วยให้คุณสามารถแบ่งโมเดลและชุดข้อมูลการฝึกทั่วทั้งอินสแตนซ์คลัสเตอร์ AWS โดยอัตโนมัติ เพื่อช่วยให้สามารถใช้โครงสร้างพื้นฐานการประมวลผลและเครือข่ายของคลัสเตอร์ได้อย่างมีประสิทธิภาพ ช่วยให้สภาพแวดล้อมมีความยืดหยุ่นมากขึ้นโดยการตรวจจับ วินิจฉัย และกู้คืนจากข้อผิดพลาดของฮาร์ดแวร์โดยอัตโนมัติ ช่วยให้คุณสามารถฝึก FM อย่างต่อเนื่องเป็นเวลาหลายเดือนโดยไม่หยุดชะงัก ซึ่งจะลดเวลาฝึกได้ถึง 40%

เรียนรู้เพิ่มเติม

การฝึกฝนแบบกระจายประสิทธิภาพสูง

SageMaker AI ทำให้การฝึกแบบกระจายรวดเร็วยิ่งขึ้นด้วยการแบ่งโมเดลและชุดข้อมูลการฝึกของคุณระหว่างตัวเร่งความเร็ว AWS โดยอัตโนมัติ ช่วยให้คุณเพิ่มประสิทธิภาพงานฝึกของคุณสำหรับโครงสร้างพื้นฐานเครือข่าย AWS และโทโพโลยีคลัสเตอร์ นอกจากนี้ยังช่วยปรับปรุงจุดตรวจสอบโมเดลผ่านสูตรด้วยการเพิ่มประสิทธิภาพความถี่ในการบันทึกจุดตรวจสอบ เพื่อให้มั่นใจได้ว่ามีค่าใช้จ่ายคงที่น้อยที่สุดระหว่างการฝึก ด้วยสูตรดังกล่าว นักวิทยาศาสตร์ข้อมูลและนักพัฒนาที่มีทักษะทุกระดับจะได้รับประโยชน์จากประสิทธิภาพที่ล้ำสมัย พร้อมทั้งเริ่มฝึกอบรมและปรับแต่งโมเดล AI ช่วยสร้างที่พร้อมใช้งานสาธารณะได้อย่างรวดเร็ว รวมถึง Llama 3.1 405B, Mixtral 8x22B และ Mistral 7B สูตรเหล่านี้ประกอบด้วยสแต็กการฝึกอบรมที่ได้รับการทดสอบโดย AWS แล้ว ซึ่งช่วยลดเวลาอันยาวนานหลายสัปดาห์ในการทดสอบการกำหนดค่าโมเดลต่าง ๆ คุณสามารถสลับไปมาระหว่างอินสแตนซ์ที่ใช้ GPU กับอินสแตนซ์ที่ใช้ AWS Trainium ได้ด้วยการเปลี่ยนสูตรเพียงบรรทัดเดียว และเปิดใช้การตรวจสอบจุดตรวจสอบโมเดลอัตโนมัติเพื่อความยืดหยุ่นในการฝึกที่ดีขึ้น นอกจากนี้ ให้เรียกใช้เวิร์กโหลดในการผลิตด้วยฟีเจอร์การฝึก SageMaker ที่คุณเลือก

เรียนรู้เพิ่มเติม

เครื่องมือในตัวสำหรับการโต้ตอบและการตรวจสอบ

Amazon SageMaker กับ MLflow

ใช้ประโยชน์จาก MLflow ร่วมกับการฝึกอบรม SageMaker เพื่อจัดเก็บพารามิเตอร์อินพุต การกำหนดค่า และผลลัพธ์ ช่วยให้คุณสามารถระบุโมเดลที่มีประสิทธิภาพที่ดีที่สุดสำหรับกรณีการใช้งานของคุณได้อย่างรวดเร็ว UI ของ MLflow ช่วยให้คุณสามารถวิเคราะห์ความพยายามในการฝึกโมเดลและลงทะเบียนโมเดลตัวเลือกสำหรับการผลิตได้อย่างง่ายดายด้วยขั้นตอนสั้นๆ เพียงขั้นตอนเดียว

การแก้จุดบกพร่อง

Amazon SageMaker กับ TensorBoard

Amazon SageMaker พร้อม TensorBoard ช่วยให้คุณสามารถประหยัดเวลาในการพัฒนาโดยการแสดงภาพสถาปัตยกรรมโมเดลเพื่อระบุและแก้ไขปัญหาการบรรจบกัน เช่น การสูญเสียการตรวจสอบที่ไม่มาบรรจบกันหรือการไล่ระดับที่หายไป

การจัดการการทดลอง

มีอะไรใหม่

1-5 (5)
Showing results: 1-5
Total results: 5
  • วันที่ (จากใหม่สุดไปเก่าสุด)
ไม่พบผลลัพธ์
1