gnuhtml2latex
wandelt Webseiten in latex-Dateien um. Dieses tool
berücksichtigt aber keine Umlaute, Anführungszeichen, Bindestriche
oder ähnliches... (gnuhtml2latex
ist Teil von Debian Woody.)
html2latex
ist ein Perl-Skript, welches als Projekt auf
sourceforge gepflegt wird: html2latex (noch nicht ausprobiert).
Das größte Problem bei der Umwandlung mit meiner Version von
gnuhtml2latex
sind die Anführungszeichen "
, denn diese haben in
TeX nicht die Funktion von Anführungszeichen. Sie dienen der
Darstellung von Pünktchen auf anderen Buchstaben, z.B. wird ein ä
in
der Urform von (La)TeX als \"{a}
oder \"a
dargestellt. Darum
meckert latex, wenn es beispielsweise auf sowas wie "D…
trifft, denn
damit kann es nichts anfangen!
Richtige Anführungszeichen hingegen werden in Latex intern so
geschrieben: ,,
, ``
oder ''
. Diese Zeichenfolgen werden dann in
'richtige' Anführungszeichen umgewandelt: „
, “
, ”
(Unicode-Zeichen 8222, 8220 und 8221), erscheinen also in den dvi-,
ps- oder pdf-Dateien korrekt. (Dies erklärt übrigens auch, daß
Anführungszeichen in Unix/Linux-Dokumentationen mitunter auch direkt
so gesetzt werden: ``Wort''
.)
Wie aber macht man aus "Zitat" — ,,Zitat`` (= „Zitat“)? (oder in englischen Texten aus "quotation" — ``quotation'' (= “quotation”)?)
Um Umlauten beizukommen kann man:
\usepackage[latin1]{inputenc}
(siehe
dazu auch LatexDeutsch)
konwert
iso1/html-htmlent dok.html -O
(oder, wenn das Dokument nicht
überschrieben werden soll, statt der Option -O
einfach die Option
-o neuesdokument.html
verwenden).
Im ordentlichen Drucksatz haben Bindestriche sehr verschiedene Längen:
engl. | deutsche Bezeichnung / Bedeutung | Beispiel | |
---|---|---|---|
hyphen | - | "Divis", "Viertelgeviertstrich", Bindestrich, Trennstrich | "ps-Datei", "Tel.: +49-30-231 22 324" |
em-dash | — | "Geviertstrich", Gedankenstrich | "… Satz — wenn ein Einschub nötig ist — …" |
en-dash | – | "Halbgeviertstrich", Bereiche "(von) bis", Gedankenstrich | "in den Jahren 1996–2006", "A–Z", "α–Ω" |