กระบวนการสร้างฟีเจอร์ใหม่คืออะไร

ฟีเจอร์ของโมเดลคืออินพุตที่โมเดลแมชชีนเลิร์นนิง (ML) ใช้ระหว่างการฝึกและการอนุมานเพื่อคาดการณ์ ความแม่นยำของโมเดล ML ขึ้นอยู่กับชุดและองค์ประกอบของฟีเจอร์ที่แม่นยำ ตัวอย่างเช่น ในแอปพลิเคชัน ML ที่แนะนำรายการเพลง ฟีเจอร์อาจรวมถึงการจัดอันดับเพลง เพลงที่เคยฟังก่อนหน้านี้ และเวลาในการฟังเพลง การสร้างฟีเจอร์ต้องใช้ความพยายามทางวิศวกรรมอย่างมาก กระบวนการสร้างฟีเจอร์ใหม่เกี่ยวข้องกับการแยกและการแปลงตัวแปรจากข้อมูลดิบ เช่น รายการราคา คำอธิบายสินค้า และปริมาณยอดขาย เพื่อให้คุณสามารถใช้ฟีเจอร์สำหรับการฝึกและการคาดการณ์ได้ ขั้นตอนที่จำเป็นในการสร้างฟีเจอร์ใหม่ ได้แก่ การแยกข้อมูลและการล้างข้อมูล ตามด้วยการสร้างและการจัดเก็บฟีเจอร์

กระบวนการสร้างฟีเจอร์ใหม่มีความท้าทายอะไรบ้าง

กระบวนการสร้างฟีเจอร์ใหม่มีความท้าทายเพราะต้องอาศัยการรวมกันระหว่างการวิเคราะห์ข้อมูล ความรู้ในสาขาธุรกิจ และสัญชาตญาณบางอย่าง เมื่อสร้างฟีเจอร์ การไปที่ข้อมูลที่มีโดยทันทีอาจจะเป็นเรื่องน่าดึงดูดใจ แต่บ่อยครั้งคุณควรเริ่มด้วยการพิจารณาว่าข้อมูลใดที่จำเป็นต้องมีบ้าง โดยพูดคุยกับผู้เชี่ยวชาญ ระดมสมอง และทำการวิจัยภายนอก หากไม่ผ่านขั้นตอนนี้ คุณอาจพลาดตัวแปรที่เป็นตัวคาดการณ์ที่สำคัญ

การแยกข้อมูล

การเก็บรวบรวมข้อมูลคือกระบวนการประกอบรวมข้อมูลทั้งหมดที่คุณต้องใช้สำหรับ ML การเก็บรวบรวมข้อมูลอาจเป็นขั้นตอนที่น่าเบื่อ เพราะข้อมูลอยู่ในแหล่งที่มาของข้อมูลมากมาย ซึ่งรวมถึงบนแล็ปท็อป ในคลังข้อมูล ในระบบคลาวด์ ข้างในแอปพลิเคชัน และบนอุปกรณ์ การค้นหาวิธีเพื่อเชื่อมต่อเข้ากับแหล่งที่มาของข้อมูลต่าง ๆ จึงอาจเป็นเรื่องท้าทาย นอกจากนี้ปริมาณของข้อมูลยังเพิ่มขึ้นอย่างทวีคูณ จึงมีข้อมูลมากมายให้ต้องค้นหา อีกทั้งข้อมูลยังมีรูปแบบและประเภทที่แตกต่างกันมากมาย ขึ้นอยู่กับแหล่งที่มาของข้อมูล ตัวอย่างเช่น ข้อมูลวิดีโอและข้อมูลที่เป็นตารางจะนำมาใช้ด้วยกันไม่ได้ง่าย ๆ

การสร้างฟีเจอร์

การระบุประเภทข้อมูลเป็นกระบวนการระบุข้อมูลดิบ (ภาพ ไฟล์ข้อความ คลิปวิดีโอ ฯลฯ) และเป็นการระบุประเภทที่สื่อความหมายและให้ข้อมูลสำคัญหนึ่งประเภทขึ้นไปเพื่อให้บริบท เพื่อให้โมเดล ML สามารถเรียนรู้จากข้อมูลดังกล่าวได้ เช่น การระบุประเภทอาจระบุว่ารูปถ่ายรูปหนึ่งเป็นรูปของนกหรือรถยนต์ คำไหนที่เปล่งออกมาในการบันทึกเสียง หรือพบความผิดปกติในภาพเอ็กเรย์หรือไม่ การระบุประเภทข้อมูลเป็นขั้นตอนที่จำเป็นสำหรับการใช้งานที่หลากหลาย เช่น คอมพิวเตอร์วิทัศน์ การประมวลผลภาษาธรรมชาติ และการรู้จำคำพูด

การจัดเก็บฟีเจอร์

หลังจากที่ทำความสะอาดและระบุประเภทข้อมูลแล้ว ทีม ML มักสำรวจข้อมูลเพื่อให้แน่ใจว่าข้อมูลถูกต้องและพร้อมสำหรับ ML การสร้างเป็นภาพ เช่น ฮิสโตแกรม แผนภาพการกระจาย กราฟรูปกล่อง แผนภูมิเส้น และกราฟแท่ง ต่างเป็นเครื่องมือที่เป็นประโยชน์ในการยืนยันว่าข้อมูลถูกต้อง นอกจากนี้ การสร้างเป็นภาพยังช่วยให้ทีมวิทยาศาสตร์ข้อมูลทำการวิเคราะห์ข้อมูลเชิงสำรวจได้อีกด้วย กระบวนการนี้ใช้การสร้างเป็นภาพเพื่อค้นพบรูปแบบ มองหาความผิดปกติ ทดสอบสมมติฐาน หรือตรวจสอบข้อตกลงเบื้องต้นทางสถิติ การวิเคราะห์ข้อมูลเชิงสำรวจไม่จำเป็นต้องมีการสร้างโมเดลอย่างเป็นทางการ แต่ทีมวิทยาศาสตร์ข้อมูลสามารถใช้การสร้างเป็นภาพเพื่อถอดรหัสข้อมูลแทนได้ 

AWS สามารถช่วยในกระบวนการสร้างฟีเจอร์ใหม่ได้อย่างไร

ด้วย Amazon SageMaker Data Wrangler คุณจะสามารถทำให้กระบวนการสร้างฟีเจอร์ใหม่ง่ายลงด้วยการใช้อินเทอร์เฟซแบบภาพเพียงอินเทอร์เฟซเดียว เมื่อใช้เครื่องมือคัดเลือกข้อมูล SageMaker Data Wrangler คุณจะสามารถเลือกข้อมูลดิบที่คุณต้องการจากแหล่งที่มาของข้อมูลต่าง ๆ แล้วนำเข้าข้อมูลได้ด้วยคลิกเดียว SageMaker Data Wrangler ประกอบด้วยการแปลงข้อมูลในตัวมากกว่า 300 แบบ คุณจึงสามารถทำข้อมูลให้อยู่ในรูปแบบบรรทัดฐาน เปลี่ยนสภาพข้อมูล และรวมฟีเจอร์ต่าง ๆ เข้าด้วยกันได้โดยไม่ต้องเขียนโค้ดใด ๆ หลังจากที่เตรียมข้อมูลแล้ว คุณสามารถสร้างเวิร์กโฟลว์ ML ที่เป็นอัตโนมัติโดยสมบูรณ์ด้วย Amazon SageMaker Pipelines แล้วบันทึกสำหรับนำกลับมาใช้ใน Amazon SageMaker Feature Store SageMaker Feature Store คือคลังที่สร้างตามวัตถุประสงค์ที่คุณสามารถจัดเก็บและเข้าถึงฟีเจอร์ ดังนั้นการตั้งชื่อ จัดระเบียบ และนำกลับมาใช้ในทีมต่าง ๆ จึงทำได้ง่ายขึ้น SageMaker Feature Store ให้ร้านค้าหนึ่งเดียวสำหรับฟีเจอร์ในระหว่างการฝึกและการอนุมานในเวลาจริง โดยไม่ต้องเขียนโค้ดเพิ่มเติมหรือสร้างกระบวนการด้วยมือเพื่อให้ฟีเจอร์สอดคล้องกัน

ขั้นตอนต่อไปบน AWS

ดูแหล่งข้อมูลเพิ่มเติมเกี่ยวกับผลิตภัณฑ์
AWS Support สำหรับกระบวนการสร้างฟีเจอร์ใหม่ 
ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที

ลงชื่อสมัครใช้งาน 
เริ่มต้นการสร้างในคอนโซล

เริ่มต้นสร้างในคอนโซลการจัดการของ AWS

ลงชื่อเข้าใช้