gnuhtml2latex wandelt Webseiten in latex-Dateien um. Dieses tool
berücksichtigt aber keine Umlaute, Anführungszeichen, Bindestriche
oder ähnliches... (gnuhtml2latex ist Teil von Debian Woody.)
html2latex ist ein Perl-Skript, welches als Projekt auf
sourceforge gepflegt wird: html2latex (noch nicht ausprobiert).
Das größte Problem bei der Umwandlung mit meiner Version von
gnuhtml2latex sind die Anführungszeichen ", denn diese haben in
TeX nicht die Funktion von Anführungszeichen. Sie dienen der
Darstellung von Pünktchen auf anderen Buchstaben, z.B. wird ein ä in
der Urform von (La)TeX als \"{a} oder \"a dargestellt. Darum
meckert latex, wenn es beispielsweise auf sowas wie "D… trifft, denn
damit kann es nichts anfangen!
Richtige Anführungszeichen hingegen werden in Latex intern so
geschrieben: ,,, `` oder ''. Diese Zeichenfolgen werden dann in
'richtige' Anführungszeichen umgewandelt: „, “, ”
(Unicode-Zeichen 8222, 8220 und 8221), erscheinen also in den dvi-,
ps- oder pdf-Dateien korrekt. (Dies erklärt übrigens auch, daß
Anführungszeichen in Unix/Linux-Dokumentationen mitunter auch direkt
so gesetzt werden: ``Wort''.)
Wie aber macht man aus "Zitat" — ,,Zitat`` (= „Zitat“)? (oder in englischen Texten aus "quotation" — ``quotation'' (= “quotation”)?)
Um Umlauten beizukommen kann man:
\usepackage[latin1]{inputenc} (siehe
dazu auch LatexDeutsch)
konwert
iso1/html-htmlent dok.html -O (oder, wenn das Dokument nicht
überschrieben werden soll, statt der Option -O einfach die Option
-o neuesdokument.html verwenden).
Im ordentlichen Drucksatz haben Bindestriche sehr verschiedene Längen:
| engl. | deutsche Bezeichnung / Bedeutung | Beispiel | |
|---|---|---|---|
| hyphen | - | "Divis", "Viertelgeviertstrich", Bindestrich, Trennstrich | "ps-Datei", "Tel.: +49-30-231 22 324" |
| em-dash | — | "Geviertstrich", Gedankenstrich | "… Satz — wenn ein Einschub nötig ist — …" |
| en-dash | – | "Halbgeviertstrich", Bereiche "(von) bis", Gedankenstrich | "in den Jahren 1996–2006", "A–Z", "α–Ω" |