Texterkennung und Konvertierung mit "Google Text und Tabellen"

Kostenloses Online-OCR-Werkzeug

Von: Robert Chromow
Stand: 15. Dezember 2010
5
(1)
Beitrag bewerten
Anmelden um Kommentare zu schreiben

Downloads zu diesem Beitrag

Über den Autor:

bild134003

Robert Chromow ist gelernter Industriekaufmann, Betriebswirt und Politologe. Seit über fünfzehn Jahren arbeitet er als freiberuflicher Journalist, Texter und Berater im eigenen Projektbüro. Print- und Online-Medien beziehen dort Fach- und Serviceartikel sowie Lernmaterialien. Außerdem schreibt er Handbücher, Webtexte und Newsletter für Unternehmen.

Beiträge des Autors als Atom-Feed Atom-Feed: Neues von akademie.de

Google hat seinem Online-Officepaket "Google Text & Tabellen" kürzlich eine praktische OCR-Funktion spendiert. Wie unser Kurztest zeigt, ist das Tool für die schnelle Zwischendurch-Texterkennung durchaus zu gebrauchen.

Google ist beim Aktualisieren seines Online-Officepakets "Google Text & Tabellen" sehr rührig. Momentan umfasst die Liste der Neuerungen solche Dinge wie das "Drag & Drop" von Bildern, die Rechtschreibprüfung in Tabellen, die Übersetzung von Dokumenten oder "neuen Formulardesigns". Wirklich nützlich ist aber eine weitere neu eingebaute Funktion: OCR.

Online-Texterkennung: OCR als Office-Zusatzfunktion

Ebenso überraschend wie praktisch ist die seit einigen Monaten verfügbare optische Texterkennung (OCR bedeutet "Optical Character Recognition", etwa "optische Zeichenerkennung".) Damit lassen sich ...

  • Grafiken mit Schrift-Bestandteilen im JPG-, PNG- und GIF-Format (z. B. gescannte und abfotografierte Texte) sowie

  • PDF-Dateien (bis zu 2 MB und maximal 10 Seiten)

... in Texte umwandeln, die als Textdateien abgespeichert und bearbeitet werden können.

Außerdem können Sie mit dem Konvertierungsmodul zahlreiche Text- und Office-Formate (z. B. Word, Excel, Powerpoint, OpenOffice) in die entsprechenden Text-, Tabellen-, Präsentations- und Zeichnungs-Formate von "Google Text & Tabellen" übertragen.

Bitte beachten Sie: Die Konvertierung von PDF-Dateien per Google-OCR ist nur dann erforderlich, wenn es sich um mehrseitige Dokumente oder um Dateien handelt, bei denen der Urheber die Kopier-Funktion deaktiviert hat: Bei einseitigen PDF-Dokumenten ist die Textübernahme direkt aus dem PDF-Reader heraus schneller erledigt: Textbereich im PDF-Reader markieren, dann "Bearbeiten" - "Kopieren" und schließlich mit "Bearbeiten" - "Einfügen" in das Zieldokument übernehmen.

Bild vergrößern"Markieren", "Bearbeiten" und "Kopieren" im PDF-Dokument (wahlweise via Menüleiste oder Kontextmenü)

Grenzen und Nutzen

Eines gleich vorweg: Wunderdinge dürfen Sie sich von dem neuen Zusatz-Service nicht erwarten. Eine professionelle OCR-Software wird dadurch noch lange nicht überflüssig. Google bemüht sich nach eigenen Angaben zwar darum, den Zeichensatz, die Zeichengröße, Zeilenumbrüche und Aufzählungen sowie elementare Textauszeichnungen (wie "fett" und "kursiv") zu übernehmen. Auf Anhieb gelungen ist das bei unseren Redaktionstests aber nicht. Eine 1:1-Umsetzung anspruchsvoller Seitenlayouts mit Tabellen, Spalten und Fußnoten ist schon gar nicht vorgesehen.

Immerhin: Eine schlichte Texterkennung ist ja manchmal auch nicht zu verachten. Ein Beispiel aus dem Redaktionsalltag soll das verdeutlichen: Wer (wie wir) das zweifelhafte Vergnügen hat, regelmäßig im Bundesgesetzblatt zu stöbern und dessen Inhalte in verständliche Artikel zu übersetzen, darf dabei den "O-Ton Gesetzgeber" nicht einfach kopieren: Beim kostenlosen "Bürgerzugang" des Bundesgesetzblatts sind die Textinhalte der PDF-Dokumente gegen Kopieren geschützt. (Der Wille des Gesetzgebers darf offenbar nicht unkontrolliert in der Bevölkerung kursieren: Ein Schelm, wer Böses dabei denkt ... )

Bild vergrößernBundesgesetzblatt als PDF-Datei: Markieren? Erlaubt. Kopieren? Fehlanzeige!

Google sorgt für schnelle Abhilfe: Angenommen, Sie interessieren sich für die aktuellen Änderungen des Einkommensteuergesetzes. Die geschützte PDF-Version des Jahressteuergesetzes 2010 haben Sie bereits heruntergeladen. (Sie können das Beispiel selbstverständlich mit einer beliebigen anderen PDF-Datei oder einem - z. B. gescannten - Text im JPG-, PNG- und GIF-Dateiformat nachvollziehen.)

Schritt für Schritt vom Bild zum Text

Dann wandeln Sie den Inhalt mit wenigen Mausklicks in editierbaren und damit zitierbaren Text um:

  • Auf der Übersichtsseite von "Google Text & Tabellen" klicken Sie zunächst auf "Hochladen",

    Bild vergrößernUpload starten ...

  • dann auf die Schaltfläche "Dateien für Upload auswählen" und laden mithilfe des folgenden Dateiauswahl-Dialogs die gewünschte(n) Datei(en) hoch,

  • setzen ein Häkchen vor die Konvertierungsoption "Text aus PDF- oder Bilddateien in Google Text & Tabellen-Dokumente konvertieren" und

  • klicken schließlich auf den Button "Upload starten":

    Bild vergrößernDatei(en) auswählen, Konvertierungsoptionen wählen und Upload starten

Je nach Upload-Geschwindigkeit sowie Größe und Komplexität des Dokuments sind das Hochladen und die Texterkennung binnen weniger Sekunden oder einiger Minuten abgeschlossen. Anschließend öffnen Sie per Mausklick auf den Datei-Link ...

Bild vergrößern... und: Fertig.

... das fertig importierte Text-Dokument im Texteditor von "Google Text & Tabellen":

Bild vergrößernDoppelt hält besser: Original und editierbare Textversion.

Bitte beachten Sie: Damit Sie das OCR-Ergebnis bequem mit dem Original vergleichen können, enthält das Importdokument zunächst sowohl das Original-"Bild" des Quelldokuments als auch die Textversion. Nachdem Sie den Vergleich abgeschlossen und eventuelle Erkennungsfehler korrigiert haben, klicken Sie das Original an und entfernen die Bilddatei, indem Sie die Löschtaste Ihrer Tastatur drücken.

Fazit

Die Qualität der eigentlichen Texterkennung war bei unserem kurzen Redaktionstests auf Anhieb recht ordentlich. Bei gescannten oder abfotografierten Texten hängt sie allerdings stark von der Lesbarkeit des Originals und der Auflösung bei der Digitalisierung ab. Angesichts der Qualität heutiger Scanner und Digitalkameras dürfte die schnelle Zwischendurch-Texterkennung aber meistens ordentliche Ergebnisse bringen.

Ob die Google-OCR für Ihre Zwecke taugt, probieren Sie am besten einfach einmal aus. Wenn Sie über ein Google-Konto verfügen, wissen Sie nach ein paar Mausklicks binnen weniger Minuten mehr.

Dieser Beitrag ist öffentlich.
Zugriff auf alle Inhalte haben Sie als Mitglied

Werden Sie Probemitglied - kostenlos.

Ohne finanzielles Risiko haben Sie Zugriff auf alle Inhalte auf akademie.de, außer Downloads. Die Anmeldung dauert drei Minuten. Sie können während der ersten 14 Tage ohne Angabe von Gründen stornieren. Eine E-Mail genügt.

Weitere Informationen finden Sie auf unserer Infoseite zur Mitgliedschaft und in unseren AGB.

Ich bin bereits Mitglied
Jetzt Probemitglied werden
Ich kann in den 14 Tagen Probezeit formlos z.B. per E-Mail stornieren. Wenn ich das nicht tue, entscheide ich mich für ein

Beitrag bewerten

Ihre Wertung: