OCR คืออะไร - คำอธิบายเกี่ยวกับการรู้จำอักขระด้วยแสง

OCR (การรู้จำอักขระด้วยแสง) คืออะไร

การรู้จำอักขระด้วยแสง (OCR) เป็นกระบวนการที่แปลงภาพข้อความให้เป็นรูปแบบข้อความที่เครื่องอ่านได้ ตัวอย่างเช่น หากคุณสแกนแบบฟอร์มหรือใบเสร็จ คอมพิวเตอร์ของคุณจะบันทึกการสแกนดังกล่าวเป็นไฟล์รูปภาพ คุณไม่สามารถใช้ตัวแก้ไขข้อความเพื่อแก้ไข ค้นหา หรือนับคำในไฟล์รูปภาพได้ อย่างไรก็ตาม คุณสามารถใช้ OCR เพื่อแปลงรูปภาพเป็นเอกสารข้อความที่มีการจัดเก็บเนื้อหาเป็นข้อมูลตัวอักษรได้

เหตุใด OCR จึงมีความสำคัญ

เวิร์กโฟลว์ทางธุรกิจส่วนใหญ่เกี่ยวข้องกับการรับข้อมูลจากสื่อสิ่งพิมพ์ แบบฟอร์มกระดาษ ใบแจ้งหนี้ เอกสารทางกฎหมายที่สแกนไว้ และสัญญาที่พิมพ์ออกมาล้วนเป็นส่วนหนึ่งของกระบวนการทางธุรกิจ เอกสารมากมายเหล่านี้ต้องใช้เวลาและพื้นที่ในการจัดเก็บและจัดการเป็นจำนวนมาก แม้ว่าการจัดการเอกสารแบบไม่ใช้กระดาษจะเป็นแนวทางที่ดี แต่การสแกนเอกสารเป็นรูปภาพนั้นก็มีอุปสรรคมากมายไม่แพ้กัน โดยกระบวนการดังกล่าวต้องอาศัยการดำเนินการด้วยตนเอง และอาจมีความยุ่งยากและใช้เวลานาน

นอกจากนี้ การแปลงเนื้อหาเอกสารนี้ให้เป็นแบบดิจิทัลจะสร้างไฟล์รูปภาพที่มีข้อความซ่อนอยู่ภายใน ซึ่งข้อความในรูปภาพไม่สามารถประมวลผลด้วยซอฟต์แวร์ประมวลผลคำในลักษณะเดียวกับเอกสารข้อความได้ เทคโนโลยี OCR จะแก้ปัญหาดังกล่าวด้วยการแปลงรูปภาพข้อความเป็นข้อมูลตัวอักษรที่สามารถวิเคราะห์ได้โดยซอฟต์แวร์ทางธุรกิจอื่นๆ คุณจึงสามารถใช้ข้อมูลดังกล่าวเพื่อทำการวิเคราะห์ ปรับการดำเนินงานให้มีประสิทธิภาพขึ้น ทำให้กระบวนการเป็นไปโดยอัตโนมัติ และปรับปรุงประสิทธิภาพการทำงาน

OCR ทำงานอย่างไร

โปรแกรม OCR หรือซอฟต์แวร์ OCR ทำงานโดยมีขั้นตอนดังต่อไปนี้:

การรับภาพ

ตัวสแกนจะอ่านเอกสารและแปลงเป็นข้อมูลไบนารี จากนั้นซอฟต์แวร์ OCR จะวิเคราะห์ภาพที่สแกนและระบุส่วนที่สว่างเป็นพื้นหลัง และส่วนที่มืดเป็นข้อความ

กระบวนการก่อนการประมวลผล

ซอฟต์แวร์ OCR จะทำความสะอาดรูปภาพก่อน และลบข้อผิดพลาดออกเพื่อเตรียมรูปภาพสำหรับการอ่าน โดยเทคนิคบางส่วนในการทำความสะอาดรูปภาพมีดังนี้:

การปรับเอกสารให้ตรงหรือการเอียงเอกสารที่สแกนเล็กน้อยเพื่อแก้ไขปัญหาการจัดตำแหน่งระหว่างการสแกน
การลบนอยส์หรือลบจุดในรูปภาพดิจิทัลออก หรือการปรับขอบของรูปภาพข้อความให้เรียบ
การทำความสะอาดช่องและเส้นในรูปภาพ
การรู้จำสคริปต์สำหรับเทคโนโลยี OCR แบบหลายภาษา

การรู้จำข้อความ

อัลกอริทึมหรือกระบวนการด้านซอฟต์แวร์ OCR หลักสองประเภทที่ซอฟต์แวร์ OCR ใช้ในการรู้จำข้อความเรียกว่าการจับคู่รูปแบบและการแยกลักษณะ

การจับคู่รูปแบบ

การจับคู่รูปแบบทำงานโดยการแยกภาพอักขระที่เรียกว่ารูปอักษร และเปรียบเทียบกับรูปอักษรที่จัดเก็บไว้ในลักษณะเดียวกัน การรู้จำรูปแบบจะทำงานได้ก็ต่อเมื่อรูปอักษรที่จัดเก็บไว้มีแบบอักษรและมาตราส่วนใกล้เคียงกับรูปอักษรที่ใช้ โดยวิธีการนี้ใช้ได้ดีกับรูปภาพที่สแกนของเอกสารที่พิมพ์ด้วยแบบอักษรที่เป็นที่รู้จัก

การแยกลักษณะ

การแยกลักษณะจะแบ่งหรือแยกย่อยรูปอักษรออกเป็นคุณสมบัติต่างๆ เช่น เส้น วงปิด ทิศทางของเส้น และจุดตัดของเส้น จากนั้นจึงใช้คุณสมบัติเหล่านี้เพื่อค้นหาคู่ที่เหมาะสมที่สุดหรือตำแหน่งข้างเคียงที่ใกล้ที่สุดในบรรดารูปอักษรต่างๆ ที่จัดเก็บไว้

กระบวนการหลังการประมวลผล

หลังจากการวิเคราะห์ ระบบจะแปลงข้อมูลตัวอักษรที่แยกออกมาเป็นไฟล์ที่ใช้ระบบคอมพิวเตอร์ ระบบ OCR บางส่วนสามารถสร้างไฟล์ PDF ที่มีคำอธิบายประกอบซึ่งมีทั้งเวอร์ชันก่อนและหลังของเอกสารที่สแกนได้

OCR มีประเภทใดบ้าง

นักวิทยาศาสตร์ข้อมูลจัดประเภทเทคโนโลยี OCR ประเภทต่างๆ ตามการใช้งานและการประยุกต์ใช้ โดยตัวอย่างเล็กๆ น้อยๆ มีดังต่อไปนี้:

ซอฟต์แวร์รู้จำอักขระด้วยแสงอย่างง่าย

โปรแกรม OCR อย่างง่ายทำงานโดยการจัดเก็บรูปแบบภาพแบบอักษรและข้อความต่างๆ ไว้เป็นเทมเพลต จากนั้นซอฟต์แวร์ OCR จะใช้อัลกอริทึมการจับคู่รูปแบบเพื่อเปรียบเทียบรูปภาพข้อความกับฐานข้อมูลภายในแบบอักขระทีละตัว หากระบบจับคู่ข้อความได้แบบคำต่อคำ ก็จะเรียกวิธีการนี้ว่าการรู้จำคำด้วยแสง แต่โซลูชันนี้มีข้อจำกัดเนื่องจากมีแบบอักษรและลักษณะการเขียนด้วยลายมือที่แทบไม่จำกัด และไม่สามารถบันทึกและจัดเก็บตัวพิมพ์ทุกประเภทไว้ในฐานข้อมูลได้

ซอฟต์แวร์รู้จำอักขระแบบอัจฉริยะ

ระบบ OCR สมัยใหม่ใช้เทคโนโลยีการรู้จำอักขระแบบอัจฉริยะ (ICR) เพื่ออ่านข้อความในลักษณะเดียวกับที่มนุษย์อ่าน ซึ่งจะใช้วิธีการขั้นสูงที่ฝึกฝนเครื่องจักรให้ทำงานเหมือนมนุษย์โดยใช้ซอฟต์แวร์แมชชีนเลิร์นนิง โดยระบบแมชชีนเลิร์นนิงที่เรียกว่านิวรัลเน็ตเวิร์คจะวิเคราะห์ข้อความในหลายระดับ โดยประมวลผลภาพซ้ำๆ ซึ่งจะมองหาลักษณะเฉพาะต่างๆ ของรูปภาพ เช่น เส้นโค้ง จุดตัด และวง และรวมผลลัพธ์ของการวิเคราะห์ระดับต่างๆ เหล่านี้เข้าด้วยกันเพื่อให้ได้ผลลัพธ์สุดท้าย แม้ว่าโดยทั่วไปแล้ว ICR จะประมวลผลรูปภาพทีละอักขระ แต่กระบวนการดังกล่าวมีความรวดเร็ว โดยได้ผลลัพธ์ในไม่กี่วินาที

การรู้จำคำแบบอัจฉริยะ

ระบบการรู้จำคำแบบอัจฉริยะทำงานบนหลักการเดียวกับ ICR แต่จะประมวลผลภาพทั้งคำแทนการประมวลผลภาพล่วงหน้าเป็นอักขระ

การรู้จำเครื่องหมายด้วยแสง

การรู้จำเครื่องหมายด้วยแสงจะระบุโลโก้ ลายน้ำ และสัญลักษณ์ข้อความอื่นๆ ในเอกสาร

OCR มีข้อดีใดบ้าง

นักวิทยาศาสตร์ข้อมูลจัดประเภทเทคโนโลยี OCR ประเภทต่างๆ ตามการใช้งานและการประยุกต์ใช้ โดยตัวอย่างเล็กๆ น้อยๆ มีดังต่อไปนี้:

ซอฟต์แวร์รู้จำอักขระด้วยแสงอย่างง่าย

โปรแกรม OCR อย่างง่ายทำงานโดยการจัดเก็บรูปแบบภาพแบบอักษรและข้อความต่างๆ ไว้เป็นเทมเพลต จากนั้นซอฟต์แวร์ OCR จะใช้อัลกอริทึมการจับคู่รูปแบบเพื่อเปรียบเทียบรูปภาพข้อความกับฐานข้อมูลภายในแบบอักขระทีละตัว หากระบบจับคู่ข้อความได้แบบคำต่อคำ ก็จะเรียกวิธีการนี้ว่าการรู้จำคำด้วยแสง แต่โซลูชันนี้มีข้อจำกัดเนื่องจากมีแบบอักษรและลักษณะการเขียนด้วยลายมือที่แทบไม่จำกัด และไม่สามารถบันทึกและจัดเก็บตัวพิมพ์ทุกประเภทไว้ในฐานข้อมูลได้

ซอฟต์แวร์รู้จำอักขระแบบอัจฉริยะ

ระบบ OCR สมัยใหม่ใช้เทคโนโลยีการรู้จำอักขระแบบอัจฉริยะ (ICR) เพื่ออ่านข้อความในลักษณะเดียวกับที่มนุษย์อ่าน ซึ่งจะใช้วิธีการขั้นสูงที่ฝึกฝนเครื่องจักรให้ทำงานเหมือนมนุษย์โดยใช้ซอฟต์แวร์แมชชีนเลิร์นนิง โดยระบบแมชชีนเลิร์นนิงที่เรียกว่านิวรัลเน็ตเวิร์คจะวิเคราะห์ข้อความในหลายระดับ โดยประมวลผลภาพซ้ำๆ ซึ่งจะมองหาลักษณะเฉพาะต่างๆ ของรูปภาพ เช่น เส้นโค้ง จุดตัด และวง และรวมผลลัพธ์ของการวิเคราะห์ระดับต่างๆ เหล่านี้เข้าด้วยกันเพื่อให้ได้ผลลัพธ์สุดท้าย แม้ว่าโดยทั่วไปแล้ว ICR จะประมวลผลรูปภาพทีละอักขระ แต่กระบวนการดังกล่าวมีความรวดเร็ว โดยได้ผลลัพธ์ในไม่กี่วินาที

การรู้จำคำแบบอัจฉริยะ

ระบบการรู้จำคำแบบอัจฉริยะทำงานบนหลักการเดียวกับ ICR แต่จะประมวลผลภาพทั้งคำแทนการประมวลผลภาพล่วงหน้าเป็นอักขระ

การรู้จำเครื่องหมายด้วยแสง

การรู้จำเครื่องหมายด้วยแสงจะระบุโลโก้ ลายน้ำ และสัญลักษณ์ข้อความอื่นๆ ในเอกสาร

OCR มีข้อดีใดบ้าง

ข้อดีที่สำคัญของเทคโนโลยี OCR มีดังต่อไปนี้:

ข้อความที่ค้นหาได้

ธุรกิจต่างๆ สามารถแปลงเอกสารที่มีอยู่และใหม่เป็นคลังความรู้ถาวรที่ค้นหาได้อย่างเต็มรูปแบบ นอกจากนี้ พวกเขายังสามารถประมวลผลฐานข้อมูลตัวอักษรโดยอัตโนมัติโดยใช้ซอฟต์แวร์พินิจพิเคราะห์ข้อมูลเพื่อการประมวลผลความรู้เพิ่มเติมได้อีกด้วย

ประสิทธิภาพการดำเนินงาน

คุณสามารถปรับปรุงประสิทธิภาพได้โดยใช้ซอฟต์แวร์ OCR เพื่อผสานรวมเวิร์กโฟลว์เอกสารและเวิร์กโฟลว์ดิจิทัลภายในธุรกิจของคุณโดยอัตโนมัติ ตัวอย่างบางส่วนของสิ่งต่างๆ ที่ซอฟต์แวร์ OCR สามารถทำได้มีดังนี้:

สแกนแบบฟอร์มที่กรอกด้วยลายมือเพื่อตรวจสอบ ตรวจทาน แก้ไข และวิเคราะห์โดยอัตโนมัติ ซึ่งช่วยประหยัดเวลาที่ต้องใช้สำหรับการประมวลผลเอกสารและการป้อนข้อมูลด้วยตนเอง
ค้นหาเอกสารที่จำเป็นโดยการค้นหาคำศัพท์ในฐานข้อมูลอย่างรวดเร็ว เพื่อให้คุณไม่ต้องไล่ดูไฟล์ในกล่องด้วยตนเอง
แปลงบันทึกย่อที่เขียนด้วยลายมือเป็นข้อความและเอกสารที่แก้ไขได้

โซลูชันปัญญาประดิษฐ์

OCR มักเป็นส่วนหนึ่งของโซลูชันปัญญาประดิษฐ์อื่นๆ ที่ธุรกิจต่างๆ อาจนำไปใช้ ตัวอย่างเช่น OCR จะสแกนและอ่านป้ายทะเบียนและป้ายจราจรในรถยนต์ไร้คนขับ ตรวจหาโลโก้แบรนด์ในโพสต์บนโซเชียลมีเดีย หรือระบุบรรจุภัณฑ์ของผลิตภัณฑ์ในภาพโฆษณา เทคโนโลยีปัญญาประดิษฐ์ดังกล่าวช่วยให้ธุรกิจต่างๆ ตัดสินใจทางการตลาดและการดำเนินงานได้ดีขึ้น ซึ่งช่วยลดค่าใช้จ่ายและปรับปรุงประสบการณ์ของลูกค้า

OCR ใช้สำหรับอะไรบ้าง

กรณีการใช้งาน OCR ทั่วไปบางส่วนในอุตสาหกรรมต่างๆ มีดังต่อไปนี้:

การธนาคาร

อุตสาหกรรมการธนาคารใช้ OCR ในการประมวลผลและตรวจสอบเอกสารสำหรับเอกสารเงินกู้ เช็คเงินฝาก และธุรกรรมทางการเงินอื่นๆ โดยการตรวจสอบนี้ได้ปรับปรุงการป้องกันการปลอมแปลงและยกระดับความปลอดภัยของธุรกรรมให้สูงขึ้น ตัวอย่างเช่น BlueVine เป็นบริษัทเทคโนโลยีทางการเงินที่ให้บริการทางการเงินแก่ธุรกิจขนาดเล็กและขนาดกลาง โดยบริษัทใช้ Amazon Textract ซึ่งเป็นบริการ OCR บนระบบคลาวด์ในการพัฒนาผลิตภัณฑ์สำหรับธุรกิจขนาดเล็กในสหรัฐอเมริกาเพื่อเข้าถึงโปรแกรมให้สินเชื่อเพื่อคุ้มครองธุรกิจ (Paycheck Protection Program หรือ PPP) ได้อย่างรวดเร็ว ซึ่งเป็นส่วนหนึ่งของแผนกระตุ้นเศรษฐกิจเพื่อบรรเทาผลกระทบจาก COVID-19 ซึ่ง Amazon Textract ประมวลผลและวิเคราะห์แบบฟอร์ม PPP หลายหมื่นรายการต่อวันโดยอัตโนมัติ เพื่อให้ BlueVine สามารถช่วยให้ธุรกิจหลายพันรายได้รับเงินทุน พร้อมทั้งรักษาสภาพการจ้างงาน 400,000 ตำแหน่งไปในตัว

การดูแลสุขภาพ

อุตสาหกรรมการดูแลสุขภาพใช้ OCR เพื่อประมวลผลบันทึกผู้ป่วย รวมถึงการรักษา การทดสอบ บันทึกของโรงพยาบาล และการชำระเงินประกัน โดย OCR ช่วยปรับปรุงเวิร์กโฟลว์ให้มีประสิทธิภาพมากขึ้นและลดการทำงานด้วยตนเองที่โรงพยาบาลในขณะที่ยังคงดูแลให้บันทึกทันสมัยอยู่เสมอ ตัวอย่างเช่น nib Group ให้การประกันสุขภาพและการรักษาพยาบาลแก่ชาวออสเตรเลียกว่า 1 ล้านคนและได้รับการเรียกร้องค่ารักษาพยาบาลหลายพันรายการต่อวัน ซึ่งลูกค้าสามารถถ่ายรูปใบกำกับยาและส่งผ่านแอปมือถือของ nib ได้ จากนั้น Amazon Textract จะประมวลผลรูปภาพเหล่านี้โดยอัตโนมัติเพื่อให้บริษัทอนุมัติการเรียกร้องเหล่านี้ได้รวดเร็วยิ่งขึ้น

โลจิสติกส์

บริษัทโลจิสติกส์ใช้ OCR เพื่อติดตามฉลากบรรจุภัณฑ์ ใบแจ้งหนี้ ใบเสร็จ และเอกสารอื่นๆ ได้อย่างมีประสิทธิภาพมากขึ้น ตัวอย่างเช่น Foresight Group ใช้ Amazon Textract เพื่อทำให้การประมวลผลใบแจ้งหนี้ใน SAP เป็นไปโดยอัตโนมัติ การป้อนข้อมูลในเอกสารทางธุรกิจเหล่านี้ด้วยตนเองใช้เวลานานและเกิดข้อผิดพลาดได้ง่าย เนื่องจากพนักงานของ Foresight ต้องป้อนข้อมูลในระบบบัญชีหลายระบบ เมื่อใช้ Amazon Textract ช่วยให้ซอฟต์แวร์ Foresight สามารถอ่านอักขระได้แม่นยำยิ่งขึ้นในเค้าโครงต่างๆ มากมาย ซึ่งช่วยเพิ่มประสิทธิภาพทางธุรกิจ

AWS สามารถช่วยคุณในการใช้งาน OCR ได้อย่างไร

AWS ขอเสนอ 2 บริการที่ช่วยให้คุณปรับใช้ OCR ในธุรกิจของคุณดังนี้:

Amazon Textract คือบริการแมชชีนเลิร์นนิง (ML) ที่ใช้ OCR เพื่อแยกข้อความ ข้อความที่เขียนด้วยลายมือ และข้อมูลโดยอัตโนมัติจากเอกสารที่สแกน เช่น PDF ซึ่งสามารถอ่านเอกสารหลายพันฉบับในเค้าโครงและรูปแบบที่หลากหลายด้วยความเร็วสูง เมื่อแยกข้อมูลจากเอกสารแล้ว Amazon Textract จะส่งคืนคะแนนความเชื่อมั่นสำหรับทุกสิ่งที่ระบุได้ เพื่อให้คุณสามารถตัดสินใจโดยใช้ข้อมูลได้ว่าต้องการใช้ผลลัพธ์อย่างไร

Amazon Rekognition สามารถวิเคราะห์รูปภาพและวิดีโอนับล้านรายการได้ในเวลาไม่กี่นาที และเสริมประสิทธิภาพงานตรวจสอบภาพโดยมนุษย์ด้วยปัญญาประดิษฐ์ คุณสามารถใช้ Amazon Rekognition API เพื่อแยกข้อความจากทั้งรูปภาพและวิดีโอได้ โดยคุณสามารถแยกข้อความที่บิดเบี้ยวและผิดเพี้ยนได้จากรูปภาพและวิดีโอของป้ายสัญลักษณ์บนถนน โพสต์บนโซเชียลมีเดีย และบรรจุภัณฑ์ของผลิตภัณฑ์

เริ่มต้นใช้งาน OCR บน AWS โดย สร้างบัญชี AWS ได้แล้ววันนี้

OCR (การรู้จำอักขระด้วยแสง) คืออะไร

OCR (การรู้จำอักขระด้วยแสง) คืออะไร

เหตุใด OCR จึงมีความสำคัญ

OCR ทำงานอย่างไร

การรับภาพ

กระบวนการก่อนการประมวลผล

การรู้จำข้อความ

การจับคู่รูปแบบ

การแยกลักษณะ

กระบวนการหลังการประมวลผล

OCR มีประเภทใดบ้าง

ซอฟต์แวร์รู้จำอักขระด้วยแสงอย่างง่าย

ซอฟต์แวร์รู้จำอักขระแบบอัจฉริยะ

การรู้จำคำแบบอัจฉริยะ

การรู้จำเครื่องหมายด้วยแสง

OCR มีข้อดีใดบ้าง

ซอฟต์แวร์รู้จำอักขระด้วยแสงอย่างง่าย

ซอฟต์แวร์รู้จำอักขระแบบอัจฉริยะ

การรู้จำคำแบบอัจฉริยะ

การรู้จำเครื่องหมายด้วยแสง

OCR มีข้อดีใดบ้าง

ข้อความที่ค้นหาได้

ประสิทธิภาพการดำเนินงาน

โซลูชันปัญญาประดิษฐ์

OCR ใช้สำหรับอะไรบ้าง

การธนาคาร

การดูแลสุขภาพ

โลจิสติกส์

AWS สามารถช่วยคุณในการใช้งาน OCR ได้อย่างไร

ขั้นตอนต่อไปบน AWS

สิ้นสุดการรองรับ Internet Explorer