Wie Golem berichtet, hat Google hat seine OCR-Software Tesseract nun offiziell freigeben. Tesseract ist eine Software zur elektronischen Texterkennung, die ursprünglich von Hewlett Packard entwickelt wurde.
Google hat nach einigen Fehlerkorrekturen nun die Texterkennungs-Software als stabil erklärt und erneut freigegeben. Erneut, da Hewlett Packard die Software bereits mit der Universität Nevada als Open Source freigeben hatte.
Die OCR-Software besitzt momentan keine grafische Benutzeroberfläche, was ich aber nicht unbedingt als Nachteil ansehe. So kann man das Programm leichter zur Stapelverarbeitung nutzen. Nachteilig empfinde ich, dass momentan nur englische Dokumente erkannt werden. Auch wird das Seitenlayout nicht berücksichtigt, somit ist das Programm für die tägliche Büroarbeit nur bedingt nutzbar.
Der Download von Tesseract 1.0 und das Projekt selbst ist bei Sourceforge untergebracht. Als Lizenz wurde die Apache Licence 2.0 gewählt.
Als Entwickler kann das Tool sehr interessant sein, zum einen um die Funktionsweise von OCR-Software kennen zu lernen, zum anderen um das Programm in eigene Applikationen einzubauen.