Endlich perfekter HTML-Quellcode aus Microsoft Word

HTML Tidy beseitigt unerwünschte Tags und Befehle aus dem Quellcode

4
(1)
Stand: 12. Januar 2011

Wohl kaum jemand kommt auf die Idee, Word zum Gestalten einer Website zu missbrauchen. Das können Dreamweaver und Co. besser. Doch ab und zu benötigen Sie Ihre Texte aus Word auch im Internet, beispielsweise den Bericht für Ihre Firmenwebsite oder den privaten Blogeintrag. Die HTML-Ausgabe von Word ist allerdings berüchtigt: Sie produziert aufgeblähten, schwer durchschaubaren Code. Wir verraten Ihnen, wie Sie "Word-HTML" in blütenreinen und schlanken HTML-Quelltext umwandeln.

Gut strukturiert mit Überschriften

Sie schreiben Ihre Blog-Artikel erst einmal in Word vor? Keine schlechte Idee! Genießen Sie den Schreibkomfort Ihrer Textverarbeitung. Nutzen Sie die mitgelieferte Rechtschreibprüfung. Strukturieren Sie Ihren Code durch Überschriften. Arbeiten Sie wie gewohnt mit Aufzählungen, Nummerierungen oder Textauszeichnungen wie fett oder kursiv. Kurz: Formatieren Sie genau so, wie Sie Ihren Blog-Artikel im Web formatieren würden.

Bild vergrößernGut strukturierter Beitrag mit Überschriften, Listen und Textformaten.

Tastentricks für Überschriften

Wichtig für gut strukturierten HTML-Quellcode sind vor allem die Überschriftsebenen von HTML: H1, H2, H3 usw. Nutzen Sie dafür in Word die Formatvorlagen für Überschriften: Überschrift 1, Überschrift 2, Überschrift 3 usw. Egal, welche Word-Version: Für die genannten drei Überschriftsebenen gelten folgende Tastentricks: Alt+1 für Überschrift 1 (H1), Alt+2 für Überschrift 2 (H2) und Alt+3 für Überschrift 3. Klicken Sie einfach in den gewünschten Absatz und probieren Sie den Tastentrick aus!

Ganz einfach: Speichern als HTML

Ihr Beitrag ist fertig? Zum Schluss exportieren Sie ihn in das HTML-Format. Das gelingt im Menü Datei über den Befehl Speichern unter. Das Dialogfenster zum Speichern erscheint. Wählen Sie im Feld Dateityp den Eintrag Webseite (*.htm, *.html). Ältere Word-Versionen kennen auch einen Befehl Als Webseite speichern. Den können sie ebenfalls aufrufen, das Ergebnis ist identisch.

Werfen Sie doch einmal einen Blick in diese HTML-Datei, beispielsweise durch Öffnen im Windows-Editor (Start/(Alle) Programme/Zubehör/Editor). Word hat den berühmt-berüchtigten Bläh-Code erzeugt. Voller Anweisungen, die wohl einzig und allein den Sinn haben, einen verlustfreien Wiederimport des Dokuments in Word zu erzielen.

Bild vergrößernAufgeblähter HTML-Quellcode mit vielen überflüssigen Anweisungen

Was Sie brauchen, ist jedoch optimaler, schlanker HTML-Quellcode. Nur den können Sie perfekt in Ihre Website oder Ihren Blog integrieren!

HTML Tidy

Und hier kommt das Programm HTML Tidy ins Spiel. Es handelt sich um ein kleines Tool, welches HTML-Quellcode von unerwünschten Tags und Befehlen bereinigt und ihn so in Ordnung bringt. (Nichts anderes bedeutet das englische Verb tidy auf Deutsch; aufräumen, in Ordnung bringen.) Das "Original-Tidy" stammt vom HTML-Entwickler Dave Raggett und ist ein Kommandozeilen-Werkzeug. Sie müssen es durch Befehle bedienen. Inzwischen gibt es das weiterentwickelte Tidy in verschiedenen "Bearbeitungen" mit mehr Bedienkomfort.

Mitglied werden

Als zahlendes Mitglied von akademie.de haben Sie vollen Zugriff auf alle Inhalte und können alle PDF-Dateien, Checklisten, Mustervorlagen und Anwendungen herunterladen.

Sind Sie sich noch unsicher? Dann wählen Sie die Option “akademie.de kostenlos testen”. So können Sie sich 14 Tage in Ruhe umschauen. Downloads stehen Ihnen in dieser Zeit nicht zur Verfügung. Gefällt Ihnen akademie.de nicht, reicht ein formloser Widerruf per E-Mail innerhalb der ersten 14 Tage. Es entstehen für Sie keine Kosten. Widerrufen Sie nicht, erhalten Sie nach Ablauf von 14 Tagen vollen Zugriff und der Mitgliedsbeitrag wird abgebucht.

Ich bin bereits Mitglied
Mitglied werden!
Ich entscheide mich für folgende Zahlungsweise:

Hallo und danke für den Hinweis.

Ich kenne Notepad++ natürlich auch, finde aber PSPad deutlich ansprechender und hatte mich daher auch ganz bewusst gegen Notepad++ entschieden. Schon der Menübefehl zum Aufruf von Tidy über TextFX -> TextFX HTML Tidy gefällt mir nicht. Aber das ist natürlich Geschmackssache und wer lieber mit Notepad++ arbeitet ... :-)

Früher war ich mal ein Fan von HTML-Kit (http://www.htmlkit.com/download/). Auch da gibt es den "Word-HTML-Reiniger" unter Actions -> Tools -> HTML Tidy -> Strip surplus tags in word 2000 pages.

Hallo,

etwas solider und moderner wirkt vielleicht der ebenfalls kostenlose Editor Notepad++ (auch optisch). Dort befindet sich die gleiche TiDy-Option im Hauptmenü unter -> TextFX -> TextFX HTML Tidy -> TiDy clean Microsoft Word 2000 document. Das TextFX Menü bietet eine große Zahl an Optionen zur Textbearbeitung, Sortierung zum Beispiel. Letztlich bleibt es sicherlich Geschmacksache, welchen Editor man favorisiert. Nicht nur (selbsterklärende) Optik oder bestimmte Funktionen sind da von Belang, sondern bspw. auch die "Community" um den Editor herum. Notepad++ bietet bspw. ein deutsches Forum: /sourceforge.net/projects/notepad-plus/forums.

Mit freundlichen Grüßen
Peter Neelmeyer

Downloads zu diesem Beitrag

Über den Autor:

bild117340

Johann-Christian Hanke ist Sprach- und Literatur-Wissenschaftler und arbeitet seit 1996 als freier Autor für namhafte Computerbuch-Verlage und Fachzeitschriften. Insgesamt sind 70 verständlich geschri ...

Newsletter abonnieren