O C R

index: OCR

Clara OCR

Debian-Paket-Name: clara, Homepage: http://www.claraocr.org/, Tutorial, Advance User Manual

Clara liest nur .pbm oder .pgm Dateien (portable bitmap (schwarz-weiß) oder portable greymap (8 Graustufen)). Beide können z. B. direkt aus quiteinsane heraus vom Scanner her abgespeichert werden.

Vorbereitung: the preprocessor

Threshholding

Threshholding wird die Einstellung des Schwellwerts genannt, ab welchem eine Graustufe als Schwarz oder Weiß interpretiert wird. Hierbei ist Sorgfalt geboten, da sonst bei der Unterteilung des Bildes in Zeichen einzelne Buchstaben zusammengefaßt oder zusammenhängende Buchstaben zerteilt werden.


               XX                  
               XX                  

     XXXXX    XXX      XXX   XXX   
    X     XX   XX       XX    XX   
          XX   XX       XX    XX   
     XXXXXXX   XX       XX    XX   
    X     XX   XX       XX    XX   
    X     XX   XX       XX    XX   
     XXXXX XXXXXXX       XX  XXXX  

The Threshholding-Methode wird im TUNE-Reiter eingestellt.

./pbm 0$ selthresh -y 300 -l 0.40 0.60 ../pgm/*pgm selthresh.pl: scaling 2 times Best thresholds: 43-l.pgm 0.52 43-r.pgm 0.48

$ pgmtopbm -threshold -value 0.52 ../pgm/43-l.pgm >43-l.pbm $ display 43-l.pbm

deskew

de-skew ist der Versuch, Schieflagen der Seiten automatisch auszugleichen. Auf dem tune-Reiter gibt es dafür eine Option, die standardmäßig nicht eingeschaltet ist.

Umlaute eingeben

Im Tutorial heißt es, man solle den Punkt und den Strich vom i nicht zu einem Zeichen verknüpfen. Ebenso für alle anderen Umlaute. Der i-Punkt wird als Akzentzeichen behandelt. Wie also gibt man diese Akzentzeichen nun aber ein? Es wird auf die LaTeX-Umschreibung von akzentuierten Buchstaben hingewiesen und nach dieser erscheinen die die Sonderzeichen und das i als akzentuiertes Zeichen so:

[FIXME: invalid characters] [FIXME: invalid characters] [FIXME: invalid characters] [FIXME: invalid characters] [FIXME: invalid characters]