Discussion:
MS-Word Formatierungen aus Quelltext entfernen?
(zu alt für eine Antwort)
Holger Prinke
2003-07-23 06:58:50 UTC
Permalink
ein Bekannter von mir hat eine Website mit Word erstellt (no
comment!). Nun würde ich das Ganze gerne abspecken.
D.h."säubern" und die MS-pro- prietären Teile des Code
rausschmeißen. Habt Ihr irgendeinen Tipp, wie ich das mit
möglichst geringem Aufwand bewerkstelligen kann?
Am einfachsten wäre es wohl, wenn Du die Original-Word-Dokumente
bekommen könntest - dann kopierst Du die Texte einfach in Deinen
Editor und schreibst die HTML-Tags drumrum.

Steht nur dieser HTML-Müll zur Verfügung, lade ich mir alle Dokumente
in einen Editor wie Textpad und beginne, mit Suchen & Ersetzen
nacheinander alle Vorkommnisse an HTML-Tags dokumentenübergreifend zu
löschen, bis reiner Text übrigbleibt. Unter Umständen kann man dann
schon ein paar weitere Arbeitsgänge automatisieren, z. B. alle
Absätze mit <p></p> umschließen.

Vermutlich ist das völlige Neuschreiben des HTML-Codes die schnellste
und vor allem sicherste Variante.

Deine Anfrage wäre übrigens in de.comm.infosystems.www.authoring.misc
ontopic gewesen, ich setze ein xpost und fup dorthin.

Gruß
Holger
Alexander Skwar
2003-07-23 08:45:05 UTC
Permalink
Post by Holger Prinke
Am einfachsten wäre es wohl, wenn Du die Original-Word-Dokumente
bekommen könntest - dann kopierst Du die Texte einfach in Deinen
Editor und schreibst die HTML-Tags drumrum.
Steht nur dieser HTML-Müll zur Verfügung, lade ich mir alle Dokumente
Wenn Dir nur der HTML-Müll zur Verfügung steht, kannst Du doch auch den
reinen Text in einen Editor kopieren und die Tags drumrum scfhreiben, oder
nicht? Zum einen kann lynx -dump'en und zum anderen kann man in Mozilla
(und sogar auch im IE) den angezeigten Text markieren und kopieren.
Post by Holger Prinke
Vermutlich ist das völlige Neuschreiben des HTML-Codes die schnellste
und vor allem sicherste Variante.
Stimmt,.

Alexander Skwar
--
/*
* For moronic filesystems that do not allow holes in file.
* We may have to extend the file.
*/
2.4.0-test2 /usr/src/linux/fs/buffer.c
Holger Prinke
2003-07-23 09:43:41 UTC
Permalink
Post by Alexander Skwar
Wenn Dir nur der HTML-Müll zur Verfügung steht, kannst Du doch
auch den reinen Text in einen Editor kopieren und die Tags
drumrum scfhreiben, oder nicht? Zum einen kann lynx -dump'en und
zum anderen kann man in Mozilla (und sogar auch im IE) den
angezeigten Text markieren und kopieren.
Das funktioniert bei reinem Text natürlich am einfachsten. Sind
jedoch etwas umfangreichere Strukturen wie Tabellen oder Listen
vorhanden, kann man die im Code erhalten und muß sie nur von
Überflüssigem wie <span class...> bereinigen (wobei ich nicht mal
weiß, ob Word schon <span...> oder gar noch <font size..>
schreibt.)

Gruß
Holger
Peter Müller
2003-07-23 13:50:12 UTC
Permalink
Post by Holger Prinke
Post by Alexander Skwar
Wenn Dir nur der HTML-Müll zur Verfügung steht, kannst Du doch
auch den reinen Text in einen Editor kopieren und die Tags
drumrum scfhreiben, oder nicht? Zum einen kann lynx -dump'en und
zum anderen kann man in Mozilla (und sogar auch im IE) den
angezeigten Text markieren und kopieren.
Das funktioniert bei reinem Text natürlich am einfachsten. Sind
jedoch etwas umfangreichere Strukturen wie Tabellen oder Listen
vorhanden, kann man die im Code erhalten und muß sie nur von
Überflüssigem wie <span class...> bereinigen (wobei ich nicht mal
weiß, ob Word schon <span...> oder gar noch <font size..>
schreibt.)
Ich mache das in Word (2000) so: Bei "Suchen und ersetzen" 'erweitern'
klicken und 'Mustervergleich' anhaken. Unter Sonstiges findet man einige
sinnvoll verwendbare Ausdrücke. Die html-Tags sind allerdings mit \ zu
maskieren, da Word sie für Wortanfang- und -ende-Suchen braucht.
Z.B. entfernt suchen nach: \<span*\> und ersetzen durch 'nix' alle
span-Tags mit allen Attributen.
Um Tabellen zu säubern, entfernt:
suchen nach: \<td*\>
ersetzen durch: <td>
alles überflüssige, aber die reinen Tabellen-Tags bleiben stehen. <tr>
<table> dementsprechend.

Ohne die Tabellen zu retten, entfernt ein einfaches
suchen nach \<*\>
ersetzen durch 'nix'
alle Start-Tags und (merkwürdigerweise!) auch alle End-Tags. Microsoft
eben.

Viele Grüße,

Peter
--
o _______________
/\_ _| |
_\__`[_______________|
] [ \, ][ ][
Martin Bodenstedt
2003-07-23 11:20:38 UTC
Permalink
Post by Holger Prinke
ein Bekannter von mir hat eine Website mit Word erstellt (no
comment!). Nun würde ich das Ganze gerne abspecken.
D.h."säubern" und die MS-pro- prietären Teile des Code
rausschmeißen. Habt Ihr irgendeinen Tipp, wie ich das mit
möglichst geringem Aufwand bewerkstelligen kann?
Am einfachsten wäre es wohl, wenn Du die Original-Word-Dokumente
bekommen könntest - dann kopierst Du die Texte einfach in Deinen
Editor und schreibst die HTML-Tags drumrum.
Soweit ich weiß, existiert ein Filterobjekt (von Microsoft?), welches
als IIS - DLL in einen Internet Information Server (IIS) eingebunden und
via Skript (ASP - Activer Server Pages) aufgerufen werden kann. Dort
jagt man den Quelltext durch und schießt die Ausgabe an den Client raus.
Man kann sogar einzelne Filterstufen angeben.

Das Problem daran ist, dass die Verwendung eigener Stylesheets zu
Problemen führen kann...
--
Martin Bodenstedt

( http://www.landtag-bw.de)
Christoph Schneegans
2003-07-23 13:12:57 UTC
Permalink
ein Bekannter von mir hat eine Website mit Word erstellt (no
comment!). Nun würde ich das Ganze gerne abspecken.
Du suchst
<http://office.microsoft.com/germany/downloads/2000/Msohtmf2.aspx>.
--
<http://schneegans.de/>
Wolfgang Schroedter
2003-07-24 10:52:44 UTC
Permalink
Post by Christoph Schneegans
Du suchst
<http://office.microsoft.com/germany/downloads/2000/Msohtmf2.aspx>.
Das räumt die schlimmsten Sachen auf, aber da bleibt noch genug Müll
übrig.
Wenn du es aus Word heraus per "Export To/Compact HTML" aufrufst: Ja.

Du kannst das Programm aber auch separat starten und einstellen, was
alles weg soll; und dann fütterst du das Programm mit dem Bläh-HTML.
Bis auf das <div>-Element, das den gesamten Inhalt einschließt,
kannst du eigentlich alles entfernen lassen, was auf die Herkunft
hindeutet.

Das geht auch per Eingabezeile:
<http://office.microsoft.com/germany/assistance/2000/wDosPeeler.aspx>

"filter -clmst <datei>" z.B. räumt sehr gründlich auf ...

Gruß aus Gruiten - Wolfgang Schrödter

Volker Stossno
2003-07-23 12:53:22 UTC
Permalink
Post by Holger Prinke
ein Bekannter von mir hat eine Website mit Word erstellt (no
comment!). Nun würde ich das Ganze gerne abspecken.
D.h."säubern" und die MS-pro- prietären Teile des Code
rausschmeißen. Habt Ihr irgendeinen Tipp, wie ich das mit
möglichst geringem Aufwand bewerkstelligen kann?
Ich empfehle einen brauchbaren HTML-Editor. [...]
Post by Holger Prinke
Am einfachsten wäre es wohl, wenn Du die Original-Word-Dokumente
bekommen könntest - dann kopierst Du die Texte einfach in Deinen
Editor und schreibst die HTML-Tags drumrum.
[...]
Aber Word-"HTML" zu säubern ist echt eine der übelsten Arbeiten...
Das Programm TIDY (http://tidy.sourceforge.net/) kann das eigentlich
ganz zufriedenstellend, es gibt extra eine Einstellmöglichkeit dafür
(Quelle: http://tidy.sourceforge.net/docs/quickref.html#word-2000)

word-2000
Type: Boolean
Default: no
Example: y/n, yes/no, t/f, true/false, 1/0
This option specifies if Tidy should go to great pains to strip out all
the surplus stuff Microsoft Word 2000 inserts when you save Word
documents as "Web pages". Doesn't handle embedded images or VML.

Funktioniert m. W.s auch mit Word 2002/XP.

HTH, Volker
Loading...