= SANE installieren =

Eigentlich braucht man nur das Debian-Paket '''sane''' und
'''sane-utils''' zu installieren. Danach steht das
Kommandozeilen-Programm ''scanimage'' zur Verfügung, das das
grundlegendste Programm zum scannen ist. 

Wer will, kann auch noch das '''xsane'''-Paket installieren. Es
enthält ein graphisches Frontend. Andere graphische Frontends gibt
natürlich auch noch.

= Hardware aussuchen =

Grundsätzlich ist es wohl immer noch so, daß es viele Geräte gibt,
die unter Linux gar nicht laufen. Es gibt auch noch einige
Hersteller, die die Unterstützung bzw. auch nur die Herausgabe von
Spezifikationen völlig blockieren. Deshalb habe ich mir die Liste
der unterstützten Scanner von der SANE-Seite (und Jonathan Buzzards
Zusatz-Seite) ausgedruckt. Das war zwar ein hübscher Haufen Papier,
hat mich aber davor bewahrt, den Scanner nachher umtauschen zu
müssen. Die Listen sicnd erstaunlich gut und vollständig! Dann habe
ich mich in einen grossen Elektronikmarkt gestellt und sogar
mehrere Geräte zur Auswahl gehabt. Einen Verkäufer nach
Linux-Scanner-Unterstützung zu fragen kann man übrigens genauso
vergessen wie die Hoffnung, ein Wort dazu auf einem Karton zu
finden... :-(

= Hardware ansprechen =

Die Kunst ist zumeist, seinen Scanner zu finden. Hierzu haben wir die Seiten ScannerAmParallelport und UsbScanner mit unseren Erfahrungen gefüllt. Interessant ist eventuell auch die Seite ScannerImNetzwerk. Wer einen BrotherDrucker mit integriertem Scanner besitzt, findet darüber auch besondere Informationen.

= Scannen =

Gewonnen hat man, wenn ein Aufruf von "scanimage -L" eine Ausgabe
ergibt, in der der angeschlossene Scanner angezeigt wird. Mit
"scanimage >bla.pnm" kann man nun eine Seite scannen. Weitere
Optionen gibts unter "man scanimage" oder "man sane" und weiteren
manpages, die  fast alle mit "sane-" anfangen (z.B. sane-microtek2
für meinen Scannertreiber).

'''scanimage''' ist ein gutes Programm, um von der Kommandozeile
oder aus Programmen oder Skripten heraus zu scannen. '''xsane'''
ist das richtige, wenn man eine schöne GUI haben möchte. Es braucht
sich zumindest nicht hinter dem bei meinem Scanner mitgelieferten
Windows-Programm zu verstecken.

= OCR =

Am Montag (20.4.2011) hat Walter auf ~CuneiForm und YAGF aufmerksam gemacht. Damit funktionieren Scannen und OCR in einer Qualität, die mit kommerziellen Programmen vergleichbar ist:
* [CuneiForm|http://en.openocr.org/] Homepage
* [CuneiForm in der Wikipedia|http://de.wikipedia.org/wiki/CuneiForm]
* [YAGF|http://code.google.com/p/yagf/] grafische Oberfläche zu ~CuneiForm

Natürlich ist es auch interessant, wenn man Texte, die man eingescannt hat, auch lesen kann. Hierzu benötigt man ein OCR (Optical Character Recognition) Programm. Leider war hier bis vor kurzem die Auswahl sehr gering und vor allem die Qualität der Ergebnisse eher grauenhaft. Inzwischen soll sich in dem Bereich jedoch einiges getan haben. Daher habe ich hier mal eine Liste von interessanten Links zusammengestellt:

* http://code.google.com/p/tesseract-ocr/ - OCR-Engine, ursprünglich von HP, heute von Google, die qualitativ sehr gut sein soll und seit der Version 3.0 auch Layouts erkennen kann ([Artikel auf Heise.de|http://www.heise.de/open/artikel/Toolbox-Texterkennung-mit-Tesseract-OCR-1674881.html])
* http://code.google.com/p/ocropus/ - Das benutzt Google, um alle Bücher der Welt zu scannen, basiert seit kurzem nicht mehr auf Tesseract (was dafür spricht, daß die Engine besser ist als Tesseract)
* http://en.wikipedia.org/wiki/CuneiForm_(software) russische OCR-Engine, die freigegeben wurde
* http://jocr.sourceforge.net/ gocr=jocr ist eine freie Gnu Optical Character Recognition Entwicklung, deren Entwicklung wegen Sourceforge-Featurities seit Mitte 2009 ungewiss ist.
* http://wiki.ubuntuusers.de/Texterkennung - Seite mit einigen guten Programmempfehlungen

Genauso interessant ist übrigens auch der nächste Schritt, nämlich die ursprüngliche Grafik und den OCR-Text wieder in einem Dokument zusammenzufügen. So erhält man ein PDF-Dokument, das man durchsuchen und markieren kann.

* http://xplus3.net/2009/04/02/convert-hocr-to-pdf/#more-207 - Python-Skript hierzu
* http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/ Anleitung, wie man PDF/A-Dokumente erzeugt, die gescannten Text enthalten
* http://www.exactcode.com/site/open_source/exactimage/ - Bibliothek mit einigen trickreichen Tools zum Thema

= Links =

* http://sane-project.org - SANE Hauptseite
* http://ihatethat-computer.com/jsane - Java-Schnittstelle für SANE

\\
[{Tag Linux Hardware Drucker}]