Skanowanie, technologia OCR

1. Skaner - oprogramowania OCR do rozpoznawania znaków.

    OCR - Optical Character Recognition. Jest to zestaw technik lub oprogramowanie służące do rozpoznawania znaków i całych  tekstów w pliku graficznym.

2. Istota rozpoznawania znaków za pomocą OCR.

Rozpoznawanie znaków:

To najważniejsza faza rozpoznawania tekstu. Program musi poprawnie zidentyfikować rozpoznane znaki. Czy znak w dokumencie to litera B? A może cyfra 8? Jeśli program pomyli się w tym miejscu, ucierpi na tym wynik całego procesu.

Aby rozpoznać tekst możliwie bezbłędnie, programy wykorzystują kombinacje różnych metod, które z grubsza można podzielić na dwie kategorie: rozpoznawanie wzorów (pattern matching) i rozpoznawanie cech (feature matching). Więcej informacji na ten temat w dalszej części artykułu.

alf.jpg
Aby ułatwić komputerom rozpoznawanie tekstu, opracowano specjalne czcionki. Pierwszy wariant OCR-A  istnieje od 1968 roku. Ponieważ jest to dość trudno czytelny krój pisma, opracowano później czcionkę OCR-B
 
3. Skanowanie tekstów
 
4. Przetwarzanie tekstów do rożnych formatów.
Formaty dokumentów tekstowych:
  • .txt – dokumenty w postaci czystego (niesformatowanego) zbioru znaków zapisanych w standardzie Unicode UTF-8 jako pliki typu .txt. (dopuszcza się rozszerzenie .app dla wykazu sekwencji nukleotydów i aminokwasów zgodnego z normą WIPO ST.25)
  • .doc – dokumenty w postaci sformatowanego tekstu jako pliki typu .doc – standard obowiązuje wyłącznie dla odczytu dokumentu
  •  .rtf wersja 1.6 – Rich Text Format Specification – dokumenty w postaci sformatowanego tekstu jako pliki typu .rtf.
  • dokumenty tekstowe tworzone przez edytory tekstowe