pdf

Das pdf Dateiformat

pdf heißt: portable document format, also übertragbares Dokumentenformat. Dies ist ein Format der Firma Adobe, welches eine identische Anzeige von Dokumenten unter verschiedenen Betriebsbedingungen und -umgebungen ermöglichen soll. Das Standardanzeigeprogramm für pdf-Dokumente ist der von der Firma Adobe kostenlos verteilte Acrobat-Reader (u.a. auch für Linux verfügbar — Kommando acroread). Ein freies Anzeigeprogramm für pdf-Dokumente ist xpdf.

Erstellung von PDF-Dokumenten

Umwandlung von PDF in andere Formate

Erstellung von PDF-Dokumenten

PDF-Dokumente können direkt erzeugt werden aus latex, docbook, texinfo, scribus, gnumeric (über den Drucken-Dialog)…(?)

Es gibt aber auch Wege der Umwandlung von anderen Formaten nach pdf:

… aus html

Zur Erstellung von PDF-Dateien aus HTML-Dokumenten bzw. Dokumentsammlungen dient das programm htmldoc.

… aus Bild-/Grafikdateien

Grafikdateien kann man auch direkt in PDF-Dateien umwandeln mit Hilfe von convert (z.B. alle jpegs in ein pdf-dok):

$ convert -page a4 *.jpg foo.pdf

(Enthaltenen Text kann man natürlich (sogutwie) vergessen.)
(convert gehört zum Imagemagick-Paket.)

… über Postscript

Fast alle Textverarbeitungsprogramme erlauben das Drucken in eine Datei statt auf einem Drucker. Dabei werden in der Regel PostScript-Dateien erstellt. Diese PostScript-Dateien können mit hilfe von ps2pdf in pdf umgewandelt werden (ps2pdf verwendet ghostscript zur erstellung von pdf-Dokumenten).

Dabei werden allerdings keine Verweise (links), Lesezeichen (bookmarks) und Vorschaubilder (thumbnails) erzeugt. Außerdem hängt es von den verwendeten Schriften ab, ob der Text in der erzeugten Datei a) am Bildschirm gut dargestellt werden kann und b) noch als solcher verwendbar ist (zum Beispiel versagt mitunter die Suchfunktion bei Zeichenketten, die Umlaute und andere Sonderzeichen enthalten oder überhaupt für solche, die länger als ein Zeichen sind usw.).

Umwandlung von PDF-Dokumenten in andere Formate

Bilder und Text

Um die in PDF-Dokumenten enthalteten Bilder als Grafikdateien zu speichern, verwende man das Kommando

pdfimages -f 1 datei.pdf Verzeichnis

Das Standardformat der Bilder ist ppm oder pbm. Mit der Option -j kann man die Bilder im jpeg-Format speichern.

Den Text des PDF-Dokuments speichert man als Textdatei mit dem Kommando

pdftotext file.pdf file.txt

Wenn die PDF-Datei Text enthält, der als Bild gespeichert wurde (weil er einfach nur eingescannt worden ist), kann man zuerst das Bild als pbm-Datei speichern, dieses in ein tiff-Bild umwandeln und dann mit einem Texterkennungsprogramm (OCR) bearbeiten.

(Die Werkzeuge pdfimages und pdftotext gehören übrigens zum Paket xpdf.)

Postscript-Format

Zur Umwandlung von PDF-Dateien in das PostScript-Format dient das Kommando

pdf2ps dateiname.pdf

Das Resultat heißt dann dateiname.ps. (Man kann dann auch versuchen, die Postscript-Dateien mit hilfe von ps2ascii oder pstotext in Text zu verwandeln, um den Text selbst weiterverwenden zu können).