OCR (การรู้จำอักขระด้วยแสง) คืออะไร
การรู้จำอักขระด้วยแสง (OCR) เป็นกระบวนการที่แปลงภาพข้อความให้เป็นรูปแบบข้อความที่เครื่องอ่านได้ ตัวอย่างเช่น หากคุณสแกนแบบฟอร์มหรือใบเสร็จ คอมพิวเตอร์ของคุณจะบันทึกการสแกนดังกล่าวเป็นไฟล์รูปภาพ คุณไม่สามารถใช้ตัวแก้ไขข้อความเพื่อแก้ไข ค้นหา หรือนับคำในไฟล์รูปภาพได้ อย่างไรก็ตาม คุณสามารถใช้ OCR เพื่อแปลงรูปภาพเป็นเอกสารข้อความที่มีการจัดเก็บเนื้อหาเป็นข้อมูลตัวอักษรได้
เหตุใด OCR จึงมีความสำคัญ
เวิร์กโฟลว์ทางธุรกิจส่วนใหญ่เกี่ยวข้องกับการรับข้อมูลจากสื่อสิ่งพิมพ์ แบบฟอร์มกระดาษ ใบแจ้งหนี้ เอกสารทางกฎหมายที่สแกนไว้ และสัญญาที่พิมพ์ออกมาล้วนเป็นส่วนหนึ่งของกระบวนการทางธุรกิจ เอกสารมากมายเหล่านี้ต้องใช้เวลาและพื้นที่ในการจัดเก็บและจัดการเป็นจำนวนมาก แม้ว่าการจัดการเอกสารแบบไม่ใช้กระดาษจะเป็นแนวทางที่ดี แต่การสแกนเอกสารเป็นรูปภาพนั้นก็มีอุปสรรคมากมายไม่แพ้กัน โดยกระบวนการดังกล่าวต้องอาศัยการดำเนินการด้วยตนเอง และอาจมีความยุ่งยากและใช้เวลานาน
นอกจากนี้ การแปลงเนื้อหาเอกสารนี้ให้เป็นแบบดิจิทัลจะสร้างไฟล์รูปภาพที่มีข้อความซ่อนอยู่ภายใน ซึ่งข้อความในรูปภาพไม่สามารถประมวลผลด้วยซอฟต์แวร์ประมวลผลคำในลักษณะเดียวกับเอกสารข้อความได้ เทคโนโลยี OCR จะแก้ปัญหาดังกล่าวด้วยการแปลงรูปภาพข้อความเป็นข้อมูลตัวอักษรที่สามารถวิเคราะห์ได้โดยซอฟต์แวร์ทางธุรกิจอื่นๆ คุณจึงสามารถใช้ข้อมูลดังกล่าวเพื่อทำการวิเคราะห์ ปรับการดำเนินงานให้มีประสิทธิภาพขึ้น ทำให้กระบวนการเป็นไปโดยอัตโนมัติ และปรับปรุงประสิทธิภาพการทำงาน
OCR ทำงานอย่างไร
โปรแกรม OCR หรือซอฟต์แวร์ OCR ทำงานโดยมีขั้นตอนดังต่อไปนี้:
การรับภาพ
ตัวสแกนจะอ่านเอกสารและแปลงเป็นข้อมูลไบนารี จากนั้นซอฟต์แวร์ OCR จะวิเคราะห์ภาพที่สแกนและระบุส่วนที่สว่างเป็นพื้นหลัง และส่วนที่มืดเป็นข้อความ
กระบวนการก่อนการประมวลผล
ซอฟต์แวร์ OCR จะทำความสะอาดรูปภาพก่อน และลบข้อผิดพลาดออกเพื่อเตรียมรูปภาพสำหรับการอ่าน โดยเทคนิคบางส่วนในการทำความสะอาดรูปภาพมีดังนี้:
- การปรับเอกสารให้ตรงหรือการเอียงเอกสารที่สแกนเล็กน้อยเพื่อแก้ไขปัญหาการจัดตำแหน่งระหว่างการสแกน
- การลบนอยส์หรือลบจุดในรูปภาพดิจิทัลออก หรือการปรับขอบของรูปภาพข้อความให้เรียบ
- การทำความสะอาดช่องและเส้นในรูปภาพ
- การรู้จำสคริปต์สำหรับเทคโนโลยี OCR แบบหลายภาษา
การรู้จำข้อความ
อัลกอริทึมหรือกระบวนการด้านซอฟต์แวร์ OCR หลักสองประเภทที่ซอฟต์แวร์ OCR ใช้ในการรู้จำข้อความเรียกว่าการจับคู่รูปแบบและการแยกลักษณะ
การจับคู่รูปแบบ
การจับคู่รูปแบบทำงานโดยการแยกภาพอักขระที่เรียกว่ารูปอักษร และเปรียบเทียบกับรูปอักษรที่จัดเก็บไว้ในลักษณะเดียวกัน การรู้จำรูปแบบจะทำงานได้ก็ต่อเมื่อรูปอักษรที่จัดเก็บไว้มีแบบอักษรและมาตราส่วนใกล้เคียงกับรูปอักษรที่ใช้ โดยวิธีการนี้ใช้ได้ดีกับรูปภาพที่สแกนของเอกสารที่พิมพ์ด้วยแบบอักษรที่เป็นที่รู้จัก
การแยกลักษณะ
การแยกลักษณะจะแบ่งหรือแยกย่อยรูปอักษรออกเป็นคุณสมบัติต่างๆ เช่น เส้น วงปิด ทิศทางของเส้น และจุดตัดของเส้น จากนั้นจึงใช้คุณสมบัติเหล่านี้เพื่อค้นหาคู่ที่เหมาะสมที่สุดหรือตำแหน่งข้างเคียงที่ใกล้ที่สุดในบรรดารูปอักษรต่างๆ ที่จัดเก็บไว้
กระบวนการหลังการประมวลผล
หลังจากการวิเคราะห์ ระบบจะแปลงข้อมูลตัวอักษรที่แยกออกมาเป็นไฟล์ที่ใช้ระบบคอมพิวเตอร์ ระบบ OCR บางส่วนสามารถสร้างไฟล์ PDF ที่มีคำอธิบายประกอบซึ่งมีทั้งเวอร์ชันก่อนและหลังของเอกสารที่สแกนได้
OCR มีประเภทใดบ้าง
นักวิทยาศาสตร์ข้อมูลจัดประเภทเทคโนโลยี OCR ประเภทต่างๆ ตามการใช้งานและการประยุกต์ใช้ โดยตัวอย่างเล็กๆ น้อยๆ มีดังต่อไปนี้:
ซอฟต์แวร์รู้จำอักขระด้วยแสงอย่างง่าย
โปรแกรม OCR อย่างง่ายทำงานโดยการจัดเก็บรูปแบบภาพแบบอักษรและข้อความต่างๆ ไว้เป็นเทมเพลต จากนั้นซอฟต์แวร์ OCR จะใช้อัลกอริทึมการจับคู่รูปแบบเพื่อเปรียบเทียบรูปภาพข้อความกับฐานข้อมูลภายในแบบอักขระทีละตัว หากระบบจับคู่ข้อความได้แบบคำต่อคำ ก็จะเรียกวิธีการนี้ว่าการรู้จำคำด้วยแสง แต่โซลูชันนี้มีข้อจำกัดเนื่องจากมีแบบอักษรและลักษณะการเขียนด้วยลายมือที่แทบไม่จำกัด และไม่สามารถบันทึกและจัดเก็บตัวพิมพ์ทุกประเภทไว้ในฐานข้อมูลได้
ซอฟต์แวร์รู้จำอักขระแบบอัจฉริยะ
ระบบ OCR สมัยใหม่ใช้เทคโนโลยีการรู้จำอักขระแบบอัจฉริยะ (ICR) เพื่ออ่านข้อความในลักษณะเดียวกับที่มนุษย์อ่าน ซึ่งจะใช้วิธีการขั้นสูงที่ฝึกฝนเครื่องจักรให้ทำงานเหมือนมนุษย์โดยใช้ซอฟต์แวร์แมชชีนเลิร์นนิง โดยระบบแมชชีนเลิร์นนิงที่เรียกว่านิวรัลเน็ตเวิร์คจะวิเคราะห์ข้อความในหลายระดับ โดยประมวลผลภาพซ้ำๆ ซึ่งจะมองหาลักษณะเฉพาะต่างๆ ของรูปภาพ เช่น เส้นโค้ง จุดตัด และวง และรวมผลลัพธ์ของการวิเคราะห์ระดับต่างๆ เหล่านี้เข้าด้วยกันเพื่อให้ได้ผลลัพธ์สุดท้าย แม้ว่าโดยทั่วไปแล้ว ICR จะประมวลผลรูปภาพทีละอักขระ แต่กระบวนการดังกล่าวมีความรวดเร็ว โดยได้ผลลัพธ์ในไม่กี่วินาที
การรู้จำคำแบบอัจฉริยะ
ระบบการรู้จำคำแบบอัจฉริยะทำงานบนหลักการเดียวกับ ICR แต่จะประมวลผลภาพทั้งคำแทนการประมวลผลภาพล่วงหน้าเป็นอักขระ
การรู้จำเครื่องหมายด้วยแสง
การรู้จำเครื่องหมายด้วยแสงจะระบุโลโก้ ลายน้ำ และสัญลักษณ์ข้อความอื่นๆ ในเอกสาร
OCR มีข้อดีใดบ้าง
นักวิทยาศาสตร์ข้อมูลจัดประเภทเทคโนโลยี OCR ประเภทต่างๆ ตามการใช้งานและการประยุกต์ใช้ โดยตัวอย่างเล็กๆ น้อยๆ มีดังต่อไปนี้:
ซอฟต์แวร์รู้จำอักขระด้วยแสงอย่างง่าย
โปรแกรม OCR อย่างง่ายทำงานโดยการจัดเก็บรูปแบบภาพแบบอักษรและข้อความต่างๆ ไว้เป็นเทมเพลต จากนั้นซอฟต์แวร์ OCR จะใช้อัลกอริทึมการจับคู่รูปแบบเพื่อเปรียบเทียบรูปภาพข้อความกับฐานข้อมูลภายในแบบอักขระทีละตัว หากระบบจับคู่ข้อความได้แบบคำต่อคำ ก็จะเรียกวิธีการนี้ว่าการรู้จำคำด้วยแสง แต่โซลูชันนี้มีข้อจำกัดเนื่องจากมีแบบอักษรและลักษณะการเขียนด้วยลายมือที่แทบไม่จำกัด และไม่สามารถบันทึกและจัดเก็บตัวพิมพ์ทุกประเภทไว้ในฐานข้อมูลได้
ซอฟต์แวร์รู้จำอักขระแบบอัจฉริยะ
ระบบ OCR สมัยใหม่ใช้เทคโนโลยีการรู้จำอักขระแบบอัจฉริยะ (ICR) เพื่ออ่านข้อความในลักษณะเดียวกับที่มนุษย์อ่าน ซึ่งจะใช้วิธีการขั้นสูงที่ฝึกฝนเครื่องจักรให้ทำงานเหมือนมนุษย์โดยใช้ซอฟต์แวร์แมชชีนเลิร์นนิง โดยระบบแมชชีนเลิร์นนิงที่เรียกว่านิวรัลเน็ตเวิร์คจะวิเคราะห์ข้อความในหลายระดับ โดยประมวลผลภาพซ้ำๆ ซึ่งจะมองหาลักษณะเฉพาะต่างๆ ของรูปภาพ เช่น เส้นโค้ง จุดตัด และวง และรวมผลลัพธ์ของการวิเคราะห์ระดับต่างๆ เหล่านี้เข้าด้วยกันเพื่อให้ได้ผลลัพธ์สุดท้าย แม้ว่าโดยทั่วไปแล้ว ICR จะประมวลผลรูปภาพทีละอักขระ แต่กระบวนการดังกล่าวมีความรวดเร็ว โดยได้ผลลัพธ์ในไม่กี่วินาที
การรู้จำคำแบบอัจฉริยะ
ระบบการรู้จำคำแบบอัจฉริยะทำงานบนหลักการเดียวกับ ICR แต่จะประมวลผลภาพทั้งคำแทนการประมวลผลภาพล่วงหน้าเป็นอักขระ
การรู้จำเครื่องหมายด้วยแสง
การรู้จำเครื่องหมายด้วยแสงจะระบุโลโก้ ลายน้ำ และสัญลักษณ์ข้อความอื่นๆ ในเอกสาร
OCR มีข้อดีใดบ้าง
ข้อดีที่สำคัญของเทคโนโลยี OCR มีดังต่อไปนี้:
ข้อความที่ค้นหาได้
ธุรกิจต่างๆ สามารถแปลงเอกสารที่มีอยู่และใหม่เป็นคลังความรู้ถาวรที่ค้นหาได้อย่างเต็มรูปแบบ นอกจากนี้ พวกเขายังสามารถประมวลผลฐานข้อมูลตัวอักษรโดยอัตโนมัติโดยใช้ซอฟต์แวร์พินิจพิเคราะห์ข้อมูลเพื่อการประมวลผลความรู้เพิ่มเติมได้อีกด้วย
ประสิทธิภาพการดำเนินงาน
คุณสามารถปรับปรุงประสิทธิภาพได้โดยใช้ซอฟต์แวร์ OCR เพื่อผสานรวมเวิร์กโฟลว์เอกสารและเวิร์กโฟลว์ดิจิทัลภายในธุรกิจของคุณโดยอัตโนมัติ ตัวอย่างบางส่วนของสิ่งต่างๆ ที่ซอฟต์แวร์ OCR สามารถทำได้มีดังนี้:
- สแกนแบบฟอร์มที่กรอกด้วยลายมือเพื่อตรวจสอบ ตรวจทาน แก้ไข และวิเคราะห์โดยอัตโนมัติ ซึ่งช่วยประหยัดเวลาที่ต้องใช้สำหรับการประมวลผลเอกสารและการป้อนข้อมูลด้วยตนเอง
- ค้นหาเอกสารที่จำเป็นโดยการค้นหาคำศัพท์ในฐานข้อมูลอย่างรวดเร็ว เพื่อให้คุณไม่ต้องไล่ดูไฟล์ในกล่องด้วยตนเอง
- แปลงบันทึกย่อที่เขียนด้วยลายมือเป็นข้อความและเอกสารที่แก้ไขได้
โซลูชันปัญญาประดิษฐ์
OCR มักเป็นส่วนหนึ่งของโซลูชันปัญญาประดิษฐ์อื่นๆ ที่ธุรกิจต่างๆ อาจนำไปใช้ ตัวอย่างเช่น OCR จะสแกนและอ่านป้ายทะเบียนและป้ายจราจรในรถยนต์ไร้คนขับ ตรวจหาโลโก้แบรนด์ในโพสต์บนโซเชียลมีเดีย หรือระบุบรรจุภัณฑ์ของผลิตภัณฑ์ในภาพโฆษณา เทคโนโลยีปัญญาประดิษฐ์ดังกล่าวช่วยให้ธุรกิจต่างๆ ตัดสินใจทางการตลาดและการดำเนินงานได้ดีขึ้น ซึ่งช่วยลดค่าใช้จ่ายและปรับปรุงประสบการณ์ของลูกค้า
OCR ใช้สำหรับอะไรบ้าง
กรณีการใช้งาน OCR ทั่วไปบางส่วนในอุตสาหกรรมต่างๆ มีดังต่อไปนี้:
การธนาคาร
อุตสาหกรรมการธนาคารใช้ OCR ในการประมวลผลและตรวจสอบเอกสารสำหรับเอกสารเงินกู้ เช็คเงินฝาก และธุรกรรมทางการเงินอื่นๆ โดยการตรวจสอบนี้ได้ปรับปรุงการป้องกันการปลอมแปลงและยกระดับความปลอดภัยของธุรกรรมให้สูงขึ้น ตัวอย่างเช่น BlueVine เป็นบริษัทเทคโนโลยีทางการเงินที่ให้บริการทางการเงินแก่ธุรกิจขนาดเล็กและขนาดกลาง โดยบริษัทใช้ Amazon Textract ซึ่งเป็นบริการ OCR บนระบบคลาวด์ในการพัฒนาผลิตภัณฑ์สำหรับธุรกิจขนาดเล็กในสหรัฐอเมริกาเพื่อเข้าถึงโปรแกรมให้สินเชื่อเพื่อคุ้มครองธุรกิจ (Paycheck Protection Program หรือ PPP) ได้อย่างรวดเร็ว ซึ่งเป็นส่วนหนึ่งของแผนกระตุ้นเศรษฐกิจเพื่อบรรเทาผลกระทบจาก COVID-19 ซึ่ง Amazon Textract ประมวลผลและวิเคราะห์แบบฟอร์ม PPP หลายหมื่นรายการต่อวันโดยอัตโนมัติ เพื่อให้ BlueVine สามารถช่วยให้ธุรกิจหลายพันรายได้รับเงินทุน พร้อมทั้งรักษาสภาพการจ้างงาน 400,000 ตำแหน่งไปในตัว
การดูแลสุขภาพ
อุตสาหกรรมการดูแลสุขภาพใช้ OCR เพื่อประมวลผลบันทึกผู้ป่วย รวมถึงการรักษา การทดสอบ บันทึกของโรงพยาบาล และการชำระเงินประกัน โดย OCR ช่วยปรับปรุงเวิร์กโฟลว์ให้มีประสิทธิภาพมากขึ้นและลดการทำงานด้วยตนเองที่โรงพยาบาลในขณะที่ยังคงดูแลให้บันทึกทันสมัยอยู่เสมอ ตัวอย่างเช่น nib Group ให้การประกันสุขภาพและการรักษาพยาบาลแก่ชาวออสเตรเลียกว่า 1 ล้านคนและได้รับการเรียกร้องค่ารักษาพยาบาลหลายพันรายการต่อวัน ซึ่งลูกค้าสามารถถ่ายรูปใบกำกับยาและส่งผ่านแอปมือถือของ nib ได้ จากนั้น Amazon Textract จะประมวลผลรูปภาพเหล่านี้โดยอัตโนมัติเพื่อให้บริษัทอนุมัติการเรียกร้องเหล่านี้ได้รวดเร็วยิ่งขึ้น
โลจิสติกส์
บริษัทโลจิสติกส์ใช้ OCR เพื่อติดตามฉลากบรรจุภัณฑ์ ใบแจ้งหนี้ ใบเสร็จ และเอกสารอื่นๆ ได้อย่างมีประสิทธิภาพมากขึ้น ตัวอย่างเช่น Foresight Group ใช้ Amazon Textract เพื่อทำให้การประมวลผลใบแจ้งหนี้ใน SAP เป็นไปโดยอัตโนมัติ การป้อนข้อมูลในเอกสารทางธุรกิจเหล่านี้ด้วยตนเองใช้เวลานานและเกิดข้อผิดพลาดได้ง่าย เนื่องจากพนักงานของ Foresight ต้องป้อนข้อมูลในระบบบัญชีหลายระบบ เมื่อใช้ Amazon Textract ช่วยให้ซอฟต์แวร์ Foresight สามารถอ่านอักขระได้แม่นยำยิ่งขึ้นในเค้าโครงต่างๆ มากมาย ซึ่งช่วยเพิ่มประสิทธิภาพทางธุรกิจ
AWS สามารถช่วยคุณในการใช้งาน OCR ได้อย่างไร
AWS ขอเสนอ 2 บริการที่ช่วยให้คุณปรับใช้ OCR ในธุรกิจของคุณดังนี้:
Amazon Textract คือบริการแมชชีนเลิร์นนิง (ML) ที่ใช้ OCR เพื่อแยกข้อความ ข้อความที่เขียนด้วยลายมือ และข้อมูลโดยอัตโนมัติจากเอกสารที่สแกน เช่น PDF ซึ่งสามารถอ่านเอกสารหลายพันฉบับในเค้าโครงและรูปแบบที่หลากหลายด้วยความเร็วสูง เมื่อแยกข้อมูลจากเอกสารแล้ว Amazon Textract จะส่งคืนคะแนนความเชื่อมั่นสำหรับทุกสิ่งที่ระบุได้ เพื่อให้คุณสามารถตัดสินใจโดยใช้ข้อมูลได้ว่าต้องการใช้ผลลัพธ์อย่างไร
Amazon Rekognition สามารถวิเคราะห์รูปภาพและวิดีโอนับล้านรายการได้ในเวลาไม่กี่นาที และเสริมประสิทธิภาพงานตรวจสอบภาพโดยมนุษย์ด้วยปัญญาประดิษฐ์ คุณสามารถใช้ Amazon Rekognition API เพื่อแยกข้อความจากทั้งรูปภาพและวิดีโอได้ โดยคุณสามารถแยกข้อความที่บิดเบี้ยวและผิดเพี้ยนได้จากรูปภาพและวิดีโอของป้ายสัญลักษณ์บนถนน โพสต์บนโซเชียลมีเดีย และบรรจุภัณฑ์ของผลิตภัณฑ์
เริ่มต้นใช้งาน OCR บน AWS โดย สร้างบัญชี AWS ได้แล้ววันนี้