OCR (Optik Karakter Tanıma) nedir?

Optik Karakter Tanıma (OCR), bir metin görüntüsünü makine tarafından okunabilen bir metin formatına dönüştüren süreçtir. Örneğin, bir formu veya makbuzu taratırsanız bilgisayarınız taranan içeriği görüntü dosyası olarak kaydeder. Görüntü dosyasındaki sözcükleri düzenlemek, aratmak veya saymak için bir metin düzenleyicisi kullanamazsınız. Bununla birlikte, OCR'yi kullanarak görüntüyü içeriği metin verisi olarak depolanan bir metin belgesine dönüştürebilirsiniz.

OCR neden önemlidir?

Çoğu işletmenin iş akışında bilgiler basılı medya olarak alınır. Kağıt formlar, faturalar, taranmış yasal belgeler ve basılı sözleşmeler iş süreçlerinin birer parçasıdır. Bu yüksek hacimli evrak işlerini depolamak ve yönetmek çok fazla zaman ve alan gerektirir. Kağıtsız belge yönetimi ideal yöntem olsa da belgeyi bir görüntü olarak taratmak da zorluklar doğurur. Bu süreç, manuel müdahale gerektirir, ayrıca zahmetli ve yavaş olabilir.

Dahası, bu belge içeriğini dijitalleştirme işlemi, içinde metin gizlenmiş görüntü dosyaları oluşturur. Görüntülerdeki metinler, sözcük işleme yazılımı tarafından metin belgelerinde olduğu gibi işlenemez. OCR teknolojisi, metin görüntülerini diğer işletme yazılımları tarafından analiz edilebilen metin verilerine dönüştürerek bu sorunu çözer. Ardından bu verileri kullanarak analizler yapabilir, operasyonları kolaylaştırabilir, süreçleri otomatik hâle getirebilir ve üretkenliği artırabilirsiniz.

OCR nasıl çalışır?

OCR altyapısı veya OCR yazılımı aşağıdaki adımları kullanarak çalışır:

Görüntüyü alma

Bir tarayıcı, belgeleri okur ve ikili verilere dönüştürür. OCR yazılımı, taranan görüntüyü analiz ederek açık renkli alanları arka plan ve koyu renkli alanları metin olarak sınıflandırır.

Ön işleme

OCR yazılımı, ilk olarak görüntüyü temizler ve okumaya hazırlamak için hataları ayıklar. Temizleme tekniklerinden bazıları şunlardır:

  • Tarama sırasında hizalama sorunlarını düzeltmek için taranacak belgeyi hafifçe düzeltmek veya eğmek.
  • Dijital görüntü lekelerini gidermek veya çıkarmak ya da metin görüntülerinin kenarlarını düzeltmek.
  • Görüntüdeki kutu ve çizgileri temizlemek.
  • Çok dilli OCR teknolojisi için betik tanıma

Metin tanıma

Bir OCR yazılımının, metin tanıma için kullandığı iki ana OCR algoritması veya yazılım süreci türüne, düzen eşleme ve özellik ayıklama denir.

Düzen eşleme

Düzen eşleme, glif adı verilen bir karakter görüntüsünü yalıtarak ve benzer şekilde saklanan bir glifle karşılaştırarak çalışır. Düzen tanıma, yalnızca saklanan glif ile giriş glifi, benzer yazı tipinde ve ölçekteyse çalışır. Bu yöntem, bilinen bir yazı tipinde yazılmış belgelerin taranmış görüntülerinde iyi çalışır.

Özellik ayıklama

Özellik ayıklama, glifleri çizgiler, kapalı döngüler, çizgi yönü ve çizgi kesişimleri gibi özelliklere ayırır veya ayrıştırır. Ardından bu özellikleri kullanarak, saklanan glifler arasında en iyi eşleşmeyi ya da en yakın komşuyu bulur.

İşleme sonrası

Analiz sonrasında sistem, ayıklanan metin verilerini bilgisayarla işlenmiş bir dosyaya dönüştürür. Bazı OCR sistemleri, taranan belgenin hem önceki hem de sonraki versiyonlarını içeren açıklamalı PDF dosyaları oluşturabilir.

OCR türleri nelerdir?

Veri bilimciler, kullanım ve uygulamaya dayalı olarak OCR teknolojilerini farklı sınıflara ayırır. Aşağıda birkaç örnek bulabilirsiniz:

Basit optik karakter tanıma yazılımı

Basit bir OCR altyapısı, pek çok farklı yazı tipi ve metin görüntüsü düzenini şablon olarak saklama yoluyla çalışır. OCR yazılımı, metin görüntülerini dahili veritabanıyla karakter karakter karşılaştırmak için düzen eşleme algoritmalarından yararlanır. Sistem, metni kelimesi kelimesine eşleştirirse buna optik sözcük tanıma adı verilir. Neredeyse sınırsız yazı tipi ve el yazısı stili olduğundan ve her biri yakalanıp veritabanında saklanamayacağından bu çözümün sınırlamaları vardır.

Akıllı karakter tanıma yazılımı

Modern OCR sistemleri, metni insanlarla aynı şekilde okumak için akıllı karakter tanıma (ICR) teknolojisinden yararlanır. Makine öğrenimi yazılımını kullanarak makineleri insanlar gibi davranacak şekilde eğiten gelişmiş yöntemler kullanırlar. Sinir ağı adı verilen bir makine öğrenimi sistemi, metni pek çok düzeyde analiz ederek görüntüyü tekrar tekrar işler. Eğriler, çizgiler, kesişimler ve döngüler gibi farklı görüntü özniteliklerini arar ve nihai sonuca ulaşmak için tüm bu farklı analiz düzeylerinin sonuçlarını birleştirir. ICR genellikle görüntüleri tek seferde bir karakter olarak işlese de süreç hızlıdır ve saniyeler içinde sonuç alınır.

Akıllı sözcük tanıma

Akıllı sözcük tanıma sistemleri, ICR ile aynı ilkeler üzerinde çalışır ancak görüntüleri karakterler halinde ön işlemeye tabi tutmak yerine tam sözcük görüntülerini işler.

Optik işaret tanıma

Optik işaret tanıma, bir belgedeki logoları, filigranları ve diğer metin sembollerini tanımlar.

OCR'nin avantajları nelerdir?

Veri bilimciler, kullanım ve uygulamaya dayalı olarak OCR teknolojilerini farklı sınıflara ayırır. Aşağıda birkaç örnek bulabilirsiniz:

Basit optik karakter tanıma yazılımı

Basit bir OCR altyapısı, pek çok farklı yazı tipi ve metin görüntüsü düzenini şablon olarak saklama yoluyla çalışır. OCR yazılımı, metin görüntülerini dahili veritabanıyla karakter karakter karşılaştırmak için düzen eşleme algoritmalarından yararlanır. Sistem, metni kelimesi kelimesine eşleştirirse buna optik sözcük tanıma adı verilir. Neredeyse sınırsız yazı tipi ve el yazısı stili olduğundan ve her biri yakalanıp veritabanında saklanamayacağından bu çözümün sınırlamaları vardır.

Akıllı karakter tanıma yazılımı

Modern OCR sistemleri, metni insanlarla aynı şekilde okumak için akıllı karakter tanıma (ICR) teknolojisinden yararlanır. Makine öğrenimi yazılımını kullanarak makineleri insanlar gibi davranacak şekilde eğiten gelişmiş yöntemler kullanırlar. Sinir ağı adı verilen bir makine öğrenimi sistemi, metni pek çok düzeyde analiz ederek görüntüyü tekrar tekrar işler. Eğriler, çizgiler, kesişimler ve döngüler gibi farklı görüntü özniteliklerini arar ve nihai sonuca ulaşmak için tüm bu farklı analiz düzeylerinin sonuçlarını birleştirir. ICR genellikle görüntüleri tek seferde bir karakter olarak işlese de süreç hızlıdır ve saniyeler içinde sonuç alınır.

Akıllı sözcük tanıma

Akıllı sözcük tanıma sistemleri, ICR ile aynı ilkeler üzerinde çalışır ancak görüntüleri karakterler halinde ön işlemeye tabi tutmak yerine tam sözcük görüntülerini işler.

Optik işaret tanıma

Optik işaret tanıma, bir belgedeki logoları, filigranları ve diğer metin sembollerini tanımlar.

OCR'nin avantajları nelerdir?

OCR teknolojisinin başlıca avantajları şunlardır:

Arama yapılabilir metin

İşletmeler, mevcut ve yeni belgelerini tamamen aratılabilen bir bilgi arşivine dönüştürebilir. Ayrıca, daha fazla bilgi işleme için veri analizi yazılımını kullanarak metin veritabanını otomatik olarak işleyebilir.

Operasyonel verimlilik

Belge ve dijital iş akışlarını işletmenize otomatik olarak entegre etmek için OCR yazılımını kullanarak verimliliği artırabilirsiniz. OCR yazılımının neler yapabileceğine ilişkin örneklerden bazılarını burada bulabilirsiniz:

  • Elle doldurulmuş formları otomatik olarak doğrulamak, incelemek, düzenlemek ve analiz etmek için tarama. Bu, manuel belge işleme ve veri girişi için gereken zamandan tasarruf etmenizi sağlar.
  • Bir kutudaki dosyaları manuel olarak gözden geçirmek zorunda kalmadan veritabanında bir terimi hızlıca aratarak gereken belgeleri bulma.
  • Elle yazılmış notları düzenlenebilir metinlere ve belgelere dönüştürme.
     

Yapay zeka çözümleri

OCR genellikle işletmelerin uygulayabileceği diğer yapay zeka çözümlerinin bir parçasıdır. Örneğin, sürücüsüz arabalarda plakaları ve yol işaretlerini tarayıp okur, sosyal medya gönderilerindeki marka logolarını tespit eder ya da reklam görüntülerindeki ürün ambalajlarını tanır. Bu gibi yapay zekâ teknolojileri, işletmelerin masrafları azaltan ve müşteri deneyimini iyileştiren daha iyi pazarlama ve operasyon kararları almasına yardımcı olur.

OCR ne için kullanılır?

Çeşitli sektörlerde başlıca OCR kullanım örneklerini aşağıda bulabilirsiniz:

Bankacılık

Bankacılık sektörü; kredi belgeleri, mevduat çekleri ve diğer finansal işlemler için evrakları işlemek ve doğrulamak için OCR kullanır. Bu doğrulama, dolandırıcılık önleme sürecini iyileştirdi ve işlem güvenliğini artırdı. Örneğin, BlueVine, küçük ve orta ölçekli işletmeler için finans hizmeti sunan bir finansal teknoloji şirketidir. BlueVine, bulut tabanlı bir OCR hizmeti olan Amazon Textract'i kullanarak ABD'deki küçük işletmelerin COVID-19 yardım teşvik paketinin bir parçası olarak Maaş Koruma Programı (PPP) kredilerine hızlı bir şekilde erişmelerini sağlayacak bir ürün geliştirdi. Amazon Textract, günde on binlerce PPP formunu otomatik olarak işleyip analiz etti ve böylece, BlueVine binlerce işletmenin fon almasına yardımcı olarak bu süreçte 400.000'den fazla çalışanın işini kurtardı.

Sağlık Hizmetleri

Sağlık sektöründe tedavi, test, hastane kaydı ve sigorta ödemeleri dahil olmak üzere hasta kayıtlarını işlemek için OCR kullanılır. OCR, iş akışını kolaylaştırmaya ve kayıtları güncel tutarken hastanelerdeki manuel işleri azaltmaya yardımcı olur. Örneğin, nib Group, 1 milyondan fazla Avustralyalıya sağlık ve tıbbi sigorta hizmeti sağlıyor ve her gün binlerce tıbbi talep alıyor. Müşterileri, tıbbi faturalarının fotoğraflarını çekerek nib mobil uygulaması üzerinden gönderebiliyor. Amazon Textract, bu görüntüleri otomatik olarak işliyor ve böylece şirket, talepleri çok daha hızlı şekilde onaylayabiliyor.

Lojistik

Lojistik şirketleri; etiketleri, faturaları, makbuzları ve diğer belgeleri daha verimli şekilde takip etmek için OCR'den yararlanıyor. Örneğin, Foresight Group, SAP'de fatura işlemeyi otomatik hale getirmek için Amazon Textract'i kullanıyor. Foresight çalışanlarının, verileri birden fazla muhasebe sistemine girmesi gerektiğinden bu işletme belgelerinin manuel olarak girilmesi zaman alıyordu ve hataya açıktı. Foresight yazılımı, Amazon Textract sayesinde pek çok farklı düzendeki karakterleri daha doğru bir şekilde okuyabiliyor ve böylece iş verimliliğini artırıyor.

AWS, OCR konusunda nasıl yardımcı olabilir?

AWS, işletmenizde OCR'yi uygulamanıza yardımcı olabilecek iki hizmet sunar:

Amazon Textract, PDF gibi taranmış belgelerden otomatik olarak metin, el yazısı ve veri ayıklamak için OCR kullanan bir makine öğrenimi (ML) hizmetidir. Birden fazla düzen ve formattaki binlerce farklı belgeyi yüksek hızda okuyabilir. Amazon Textract, belgelerdeki bilgileri ayıklarken sonuçları nasıl kullanmak istediğiniz konusunda bilinçli kararlar verebilmeniz adına tanımladığı her şey için bir güven puanı sunar.

Amazon Rekognition, milyonlarca görüntüyü ve videoyu dakikalar içinde analiz ederek insanlara yönelik görsel inceleme görevlerini yapay zekâ ile iyileştirebilir. Amazon Rekognition API'lerini kullanarak hem görüntü hem de videolardaki metinleri ayıklayabilirsiniz. Sokak tabelaları, sosyal medya gönderileri ve ürün ambalajlarının görüntülerinden ve videolarından çarpık ve bozuk metinleri ayıklayabilirsiniz.

Hemen bir AWS hesabı oluşturarak AWS'de OCR'yi kullanmaya başlayın.

AWS'de sonraki adımlar