Skanowanie, technologia OCR
1. Skaner - oprogramowania OCR do rozpoznawania znaków.
OCR - Optical Character Recognition. Jest to zestaw technik lub oprogramowanie służące do rozpoznawania znaków i całych tekstów w pliku graficznym.
2. Istota rozpoznawania znaków za pomocą OCR.
Rozpoznawanie znaków:
To najważniejsza faza rozpoznawania tekstu. Program musi poprawnie zidentyfikować rozpoznane znaki. Czy znak w dokumencie to litera B? A może cyfra 8? Jeśli program pomyli się w tym miejscu, ucierpi na tym wynik całego procesu.
Aby rozpoznać tekst możliwie bezbłędnie, programy wykorzystują kombinacje różnych metod, które z grubsza można podzielić na dwie kategorie: rozpoznawanie wzorów (pattern matching) i rozpoznawanie cech (feature matching). Więcej informacji na ten temat w dalszej części artykułu.

- .txt – dokumenty w postaci czystego (niesformatowanego) zbioru znaków zapisanych w standardzie Unicode UTF-8 jako pliki typu .txt. (dopuszcza się rozszerzenie .app dla wykazu sekwencji nukleotydów i aminokwasów zgodnego z normą WIPO ST.25)
- .doc – dokumenty w postaci sformatowanego tekstu jako pliki typu .doc – standard obowiązuje wyłącznie dla odczytu dokumentu
- .rtf wersja 1.6 – Rich Text Format Specification – dokumenty w postaci sformatowanego tekstu jako pliki typu .rtf.
- dokumenty tekstowe tworzone przez edytory tekstowe