Word erzeugt keine durchsuchbaren PDFs, andere Software dagegen schon

dark_rider

Active member
Themenstarter
Registriert
7 Aug. 2008
Beiträge
2.023
Hallo zusammen,

mir fiel erst in diesen Tagen auf, dass Word bei Ausdruck eines Textes über virtuelle PDF-Drucker (z.B. Microsoft's eigener Print to PDF oder PDF24) zwar PDF-Dateien erzeugt, in denen man den Text auswählen und kopieren kann, der darin aber nicht durchsuchbar ist.

Verwende ich dieselben virtuellen PDF-Drucker aus anderer Software und erzeuge daraus PDFs, sind diese hingegen sehr wohl durchsuchbar, d.h. an den PDF-Druckern dürfte es eher nicht liegen.

Nach erster Recherche könnte das möglicherweise daran liegen, dass Word größtmögliche optische Einheitlichkeit zwischen Original und PDF erreichen möchte, indem der Text als Grafik gerendert wird. Ist Euch dazu eventuell etwas bekannt und ist das bei Euch auch so?
 
Zuletzt bearbeitet:
Lösung
Nach erster Recherche könnte das möglicherweise daran liegen, dass Word und der Windows Editor größtmögliche optische Einheitlichkeit zwischen Original und PDF erreichen möchten, indem der Text als Grafik gerendert wird. Ist Euch dazu eventuell etwas bekannt und ist das bei Euch auch so?
Weitere Tests ergaben, dass ein Text in Word in der neuen Windows-Standardschriftart Aptos nach dem Ausdruck per virtuellem PDF-Drucker (scheinbar egal mit welchem) dann im PDF-Reader nicht durchsuchbar ist.

Ändert man die Schriftart dagegen in Word auf die vorherige Standardschriftart Arial und druckt das Dokument erneut per virtuellem PDF-Drucker aus, ist das Dokument dann im PDF-Reader durchsuchbar.

Das erklärt auch, dass aus anderer...
Das würde zumindest die unterschiedliche Dateigröße der PDF, die Du im OneNote-Thread erwähnt hast, erklären.
 

  1. PDF-Bild (ob nun mit oder ohne Text im Header) importieren, (alternativ das Original scannen)
  2. OCR-Typ auswählen ("Optische Texterkennung" muss nur einmal durchgeführt werden)
  3. erstelltes OCR-PDF unter gleichem oder neuem Namen speichern
  4. das gespeicherte PDF ist vollständig z.B. im Browser mit [F3] durchsuchbar

---
naps2-1 und 2.PNG
---​
 
Zuletzt bearbeitet:
Probiere ich die nächsten Tage aus. Bisher habe ich mich in den Fällen (nix suchen) mit OCR in Text und dort suchen geplagt. Bei nächsten Mal .....
Danke an den Thread-Ersteller und für den Tip. Es bei Fachartikeln manchmal ......... frustierend, wenn die Suchmaschine ein zig-Seiten-PDF anbietet und man in den xxl-Seiten nicht suchen kann. Mein bisheriger Umweg kostet Zeit (Omnipage ist sehr gut, aber Liz-Programm, hat sich trotzdem gelohnt.)
 
Nach erster Recherche könnte das möglicherweise daran liegen, dass Word und der Windows Editor größtmögliche optische Einheitlichkeit zwischen Original und PDF erreichen möchten, indem der Text als Grafik gerendert wird. Ist Euch dazu eventuell etwas bekannt und ist das bei Euch auch so?
Weitere Tests ergaben, dass ein Text in Word in der neuen Windows-Standardschriftart Aptos nach dem Ausdruck per virtuellem PDF-Drucker (scheinbar egal mit welchem) dann im PDF-Reader nicht durchsuchbar ist.

Ändert man die Schriftart dagegen in Word auf die vorherige Standardschriftart Arial und druckt das Dokument erneut per virtuellem PDF-Drucker aus, ist das Dokument dann im PDF-Reader durchsuchbar.

Das erklärt auch, dass aus anderer Software als Word gedruckte PDFs sehr wohl durchsuchbar sind, weil in diesen bei mir andere Schriftarten als Aptos verwendet werden.

Scheinbar vertraut Microsoft auch derzeit immer noch nicht auf die Verbreitung von Aptos und rendert die Schriftart im Gegensatz zu den älteren lieber als Grafik?

Edit: Lt. Websuche speziell zu Word, PDFs und Aptos ergab sich, dass es sich wohl um einen Bug handeln soll, der speziell Aptos betrifft, allerdings bis heute immer noch nicht behoben wurde.
 
Zuletzt bearbeitet:
Lösung
Scheinbar vertraut Microsoft auch derzeit immer noch nicht auf die Verbreitung von Aptos und rendert die Schriftart im Gegensatz zu den älteren lieber als Grafik?

Nein, Aptos hat eine MS-Lizenz und darf nicht so einfach als TTF mit einem PDF-Dokument verbreitet werden. Gerendertes Aptos als Grafik stellt dagegen kein Problem dar.

Das Office-Dokument mit der TrueType-Schriftart Aptos (rechte Maustaste -> Installieren) wird vom PDF-Druckertreiber
  1. als gerendertes Bild / Grafik ohne Aptos-TTF
  2. als Text-Header mit Postscript-Anweisungen ohne extra Aptos-TTF-Datei
  3. als PDF-Dokument mit dem enthaltenen Text und der Aptos-TTF-Datei (auch als PDF/A bekannt, siehe unten)
  4. als eine Kombination von beiden, als PDF mit TTF und enthaltenen Grafiken, die eingebettet oder gerendert werden
ausgeliefert.

Es wird entweder als PDF-Datei gespeichert ("Speichern unter...") oder direkt gedruckt, das sind zwei unterschiedliche PDF-Druckertreiber.
Im ersten/zweiten Fall wird keine Schriftart gebraucht/exportiert, im dritten und vierten Fall schon. Falls die Zielschriftart Aptos auf dem Zielrechner nicht vorhanden ist und die Schrift auch nicht mit dem PDF-Dokument exportiert wird, wird durch den Druckertreiber ein Bild des Dokuments zwangsgerendert.

Soll also ein Word-Dokument mit Aptos-Schriftart als PDF/A später an einem LINUX-Rechner ohne Aptos-Schriftart-Installation korrekt dargestellt werden, bleibt der Weg über ein gerendertes PDF-Bild oder dem Export von Aptos in dem PDF/A-Dokument selbst, was lizenzrechtlich nicht gestattet ist, weil Aptos Bestandteil von Microsoft WINDOWS bzw. Office ist. Die dritte Möglichkeit ist das klassische Postscript-Verfahren mit dem Text im Header der PDF.

Das ist der Hintergrund für die ganze Geschichte.

Natürlich kann man mit der Open-Source-Software "NAPS2" Aptos-Dokumente nachträglich als PDF durchsuchbar machen, weil die PDF-Datei samt Aptos-TTF dabei nicht verschickt wird. Die Buchstaben stehen im PDF-Header als nackter Text und werden per Postscript-Seitenbeschreibungssprache mit Ersatz-Aptos bei der Darstellung überhaupt erst aufbereitet und dann als gerendertes PDF im Browser dargestellt. So lange also kein TTF im PDF vorhanden ist ("Schriftarten einbetten") und die Generierung über reines Postscript läuft, ist lizenzrechtlich alles in Ordnung.

"NAPS2" lädt die OCR-Komponente während des Erkennungsvorgangs aus den Netz nach, z.B. für Aptos, Arial und sogar Frakturschrift.



Appendix: PDF/A - (Quelle: Google Gemini)

PDF/A ist eine spezielle Version des bekannten PDF-Formats, die eigens für die Langzeitarchivierung von digitalen Dokumenten entwickelt wurde. Das „A“ steht dabei schlicht für Archivierung.
Während ein normales PDF darauf ausgelegt ist, heute auf deinem Bildschirm gut auszusehen, stellt PDF/A sicher, dass das Dokument auch noch in 20, 50 oder 100 Jahren exakt genauso geöffnet und gelesen werden kann – unabhängig von zukünftigen Betriebssystemen, Programmen oder Schriftarten.
Das Format ist ein offizieller ISO-Standard (ISO 19005).

Warum reicht ein normales PDF nicht?

Ein normales PDF ist extrem flexibel, und genau das ist das Problem für die Langzeitarchivierung. Es kann Verweise auf externe Inhalte enthalten, die irgendwann gelöscht werden, oder Schriftarten nutzen, die nicht auf jedem Computer installiert sind. Wenn diese Schriftart in 30 Jahren fehlt, wird das Dokument unleserlich oder verändert sein Layout.
PDF/A löst das durch ein einfaches Prinzip: Das Dokument muss komplett in sich geschlossen sein.

Die wichtigsten Regeln von PDF/A

Damit ein Dokument als PDF/A durchgeht, gelten strenge Verbote und Gebote:
  • Schriftarten müssen eingebettet sein: Jede verwendete Schriftart wird direkt in der Datei abgespeichert.
  • Keine externen Referenzen: Das Dokument darf keine Inhalte (wie Bilder oder Skripte) von externen Webseiten nachladen.
  • Keine interaktiven Elemente: JavaScript, eingebettete Audio- oder Videodateien sind verboten, da zukünftige Systeme sie oft nicht mehr abspielen können.
  • Keine Verschlüsselung: Ein Passwortschutz oder eine Verschlüsselung ist tabu. Wenn das Passwort in 50 Jahren verloren geht, kommt niemand mehr an die Daten heran.
  • Farbraum-Definitionen: Farben müssen exakt definiert sein (meist über sogenannte ICC-Profile), damit sie auf zukünftigen Bildschirmen und Druckern exakt gleich dargestellt werden.
  • Metadaten: Das Dokument muss strukturierte Infos über sich selbst enthalten (z. B. Titel, Autor, Erstellungsdatum).

Die verschiedenen Versionen und Konformitätsstufen

Im Laufe der Zeit wurden verschiedene PDF/A-Standards entwickelt, die auf neueren PDF-Versionen basieren:

StandardBasis-PDFBesonderheit
PDF/A-1 (2005)PDF 1.4Der älteste Standard; sehr streng, keine Transparenzen erlaubt.
PDF/A-2 (2011)PDF 1.7Erlaubt Transparenzen (z. B. bei PDFs mit Ebenen) und JPEG 2000-Kompression.
PDF/A-3 (2012)PDF 1.7Erlaubt das Einbetten beliebiger anderer Dateien (z. B. eine Excel-Tabelle oder XML-Daten innerhalb des PDFs). Wichtig für die E-Rechnung (ZUGFeRD).
PDF/A-4 (2020)PDF 2.0Der modernste Standard, der die Handhabung vereinfacht und modernere PDF-Features unterstützt.
Zusätzlich gibt es oft noch Buchstaben-Zusätze wie a (accessible = barrierefrei, mit logischer Struktur), b (basic = stellt nur das visuelle Aussehen sicher) und u (unicode = stellt sicher, dass Text korrekt durchsucht und kopiert werden kann).
Die Umwandlung eines normalen PDFs in ein PDF/A-Dokument ist unkompliziert, da die meisten gängigen Textprogramme und PDF-Tools diese Funktion bereits eingebaut haben. Das Geheimnis liegt meistens in der Funktion „Speichern unter“ oder „Exportieren“.
Hier sind die gängigsten Wege und die wichtigsten Punkte, auf die du dabei achten musst.

Wege zur Umwandlung

1. Direkt aus Microsoft Word (oder LibreOffice)

Wenn du das Dokument selbst geschrieben hast, musst du nicht erst ein normales PDF erstellen. Du kannst es direkt als PDF/A speichern:
  • Gehe auf Datei > Exportieren > PDF/XPS-Dokument erstellen.
  • Klicke im Dialogfenster auf den Button Optionen....
  • Setze ein Häkchen bei „ISO 19005-1-kompatibel (PDF/A)“.
  • Klicke auf OK und speichere die Datei.

2. Mit Adobe Acrobat Pro

Wenn du bereits ein fertiges PDF hast und die Vollversion von Acrobat nutzt:
  • Öffne das PDF und suche im rechten Werkzeugmenü nach dem Tool „PDF-Standards“.
  • Klicke auf „In PDF/A konvertieren“.
  • Acrobat prüft das Dokument, bettet fehlende Schriftarten ein und speichert es im gewünschten PDF/A-Format ab.

3. Über kostenlose PDF-Drucker

  • NAPS 2.0
 
Zuletzt bearbeitet:
NAPS 2.0 installiert und Test. Geht gut und einfach. Allerdings ...... mein Problem sind an sich Fraktur-Druck (alte Bücher). Da funktioniert es zwar im Prinzip, aber einige Buchstaben ..... und dann sind die Frakturschriften noch leicht unterschiedlich (zwei verschiedene Drucke getestet). Ich muß gelegentlich mal ausprobieren, ob ich den Browser zum suchen umstellen muß, d.h. Fraktur bereits auch im Suchbegriff eingeben. Oder eben Omnipage weiter trainieren .............. brrrrr.

Jedenfalls ein guter Tip und NAPS ist jetzt in der Toolkiste. Danke Euch, Gruß Peter
 
Weitere Tests ergaben, dass ein Text in Word in der neuen Windows-Standardschriftart Aptos nach dem Ausdruck per virtuellem PDF-Drucker (scheinbar egal mit welchem) dann im PDF-Reader nicht durchsuchbar ist.

Kann ich nicht nachvollziehen. Word Version 2604. Text mit Aptos Schriftart erstellt, einmal direkt als PDF gespeichert und einmal per PDF24 "gedruckt". Beide Dokumente sind problemlos im Adobe Reader durchsuchbar.

1779617480427.png

Edit: Lt. Websuche speziell zu Word, PDFs und Aptos ergab sich, dass es sich wohl um einen Bug handeln soll, der speziell Aptos betrifft, allerdings bis heute immer noch nicht behoben wurde.

Um Durchsuchbarkeit geht es doch überhaupt nicht in dem Thread!? Dort geht es darum, dass Texte mit Aptos als Schriftart beim Speichern in PDF abgeschnitten werden.

Du wirst da ein anderes Problem haben. Taucht das auf all deinen Windows-Systemen auf?
Welche Office-Version genau wird verwendet?

Die Schriftarten geben an, ob sie eingebettet werden dürfen. Bei Aptos ist das der Fall, sonst würde es hier nicht funktionieren.


Nein, Aptos hat eine MS-Lizenz und darf nicht so einfach als TTF mit einem PDF-Dokument verbreitet werden.

Schauen wir nach, was Microsoft dazu sagt:

"For example, Microsoft Word and PowerPoint follow the rules and restrictions, so you can use these applications to create documents (such as Word documents, PowerPoint decks and PDFs) that include embedded fonts."



Gerendertes Aptos als Grafik stellt dagegen kein Problem dar.

Und auch hier noch mal der Blick auf die Aussage von Microsoft.

"No, converting Windows fonts to other formats does not change the rules around embedding or redistribution"


Das ist der Hintergrund für die ganze Geschichte.

Nein. Das ist Unsinn.
 
"For example, Microsoft Word and PowerPoint follow the rules and restrictions, so you can use these applications to create documents (such as Word documents, PowerPoint decks and PDFs) that include embedded fonts."
„Beispielsweise halten sich Microsoft Word und PowerPoint an die Regeln und Einschränkungen, sodass Sie diese Anwendungen verwenden können, um Dokumente (wie Word-Dokumente, PowerPoint-Präsentationen und PDFs) zu erstellen, die eingebettete Schriftarten enthalten.“

Da steht:
"PowerPoint und Word halten sich an die Regeln und Einschränkungen."

Das heißt, sie werden z.B. verhindern, dass eine DRM-geschützte Schrift in einen der vielen PDF-Druckertreiber exportiert wird, die Schriften in PDF-Dokumente einbetten können.

"No, converting Windows fonts to other formats does not change the rules around embedding or redistribution"

Rendern und Konvertieren von Schriftarten sind zwei unterschiedliche Verfahren.

Nein. Das ist Unsinn.

War heute nicht Dein Tag, oder? ;)
 
Das heißt, sie werden z.B. verhindern, dass eine DRM-geschützte Schrift in einen der vielen PDF-Druckertreiber exportiert wird, die Schriften in PDF-Dokumente einbetten können.

Lies doch einfach die komplette Quelle. Ich muss ja nicht alles noch mal erklären, was dort schon steht, insbesondere zur Erlaubnis der Nutzung der mitgelieferten Schriften. Ich kann es leider nicht verstehen für dich. Das müsstest du dann noch selbst.

Darauf, dass das hier alles einwandfrei wie erwartet funktioniert, bist du ja leider nicht eingegangen. Weil nicht sein kann, was laut deiner Meinung gar nicht sein darf, oder?
 
Nach erster Recherche könnte das möglicherweise daran liegen, dass Word größtmögliche optische Einheitlichkeit zwischen Original und PDF erreichen möchte, indem der Text als Grafik gerendert wird. Ist Euch dazu eventuell etwas bekannt und ist das bei Euch auch so?

Weil nicht sein kann, was laut deiner Meinung gar nicht sein darf, oder?

Nein, Du hast das Problem nicht ganz verstanden.
  1. Rein theoretisch müsste Microsoft sich mit der Erstellung von PDFs am Postscript-Standard von Adobe orientieren, wenn eine Nicht-Postscript-TTF-Schrift wie Aptos in eine Postscript-Schrift aus der derselben Schriftartfamilie überführt wird. Da ein PDF-Dokument in Wirklichkeit eine Druckvorlage für einen Postscript-fähigen Hardware-Drucker ist, ist der Weg über gerendertes Grafik-Aptos der einzig gangbare Weg, um auch nicht-postscript-fähigen Hardware-Druckern eine korrekte Darstellung von Aptos zu ermöglichen.
  2. Microsoft kann schlecht eine selbst lizensierte TTF-Schrift wie Aptos mit einem selbst geschriebenen PDF-Druckertreiber wie "Print to PDF" in einem PDF-Dokument exportieren, wenn es das anderen nicht erlaubt, weil Microsoft ja selbst die Lizenz für diese Schrift besitzt.
  3. Durch die zwangsweise Umwandlung von Aptos in eine gerenderte Grafik wird ein Originaldokument erzeugt, dass nicht nachträglich verändert wurde und bei dem im PDF-Header eine Kennung steht, die es als Originaldokument ausweist.
  4. Dass es möglich ist, mit Freeware-Druckertreibern alle verwendeten Schriften in ein PDF einzubetten, ist den vielen UNIX/LINUX-Rechnern geschuldet, die Aptos nicht kennen und demzufolge mit einer Ersatzschrift der gleichen Schriftartfamilie ersetzen müssten. Dort wird Aptos aber nur zur Anzeige des PDFs eingebettet, die Schrift selbst als TTF wird nicht in das ganze LINUX-System eingebunden.
 
Zuletzt bearbeitet:
Microsoft kann schlecht eine selbst lizensierte TTF-Schrift wie Aptos mit einem selbst geschriebenen PDF-Druckertreiber wie "Print to PDF" in einem PDF-Dokument exportieren, wenn es das anderen nicht erlaubt, weil Microsoft ja selbst die Lizenz für diese Schrift besitzt.

Du hast die Seite von Microsoft ganz offensichtlich immer noch nicht gelesen. Da du das offenbar auch nicht vor hast, bin ich mal so frei und fasse kurz zusammen: Microsoft erlaubt das Einbetten der Windows Schriften in Office- sowie in PDF-Dokumenten ausdrücklich.

Die Schrift wird somit auch beim Speichern von Word in PDF oder von der Nutzung der PDF-Druckfunktion sauber eingebettet.
Deine Behauptung, dass Microsoft das nicht tun könne, ist falsch. Sie können es und sie tun es.

1779908151222.png

Es wird nichts zwangsläufig in Grafik umgewandelt. Auch diese Behauptung von dir ist falsch.

Und dein Punkt 4 ist ein Strohmann. Das hat schlicht niemand behauptet.

Die Frage ist jetzt eigentlich nur, ob dark_rider jetzt noch sein Problem lösen möchte. Die als Lösung markierte Antwort, dass mit Aptos verfasste und in PDF exportierte Dokumente grundsätzlich nicht durchsuchbar wären, ist falsch. Hier funktioniert das problemlos. Insofern sollte es auch bei dark_rider einen Grund geben, warum es dort wohl nicht geht.
 
Die Frage ist jetzt eigentlich nur, ob dark_rider jetzt noch sein Problem lösen möchte.
Gern, aber es fragt sich nur wie. Speichere ich ein Aptos-Dokument in Word als PDF (über "Speichern unter..."), ist das PDF durchsuchbar - es gibt also immerhin einen Workaround. Drucke ich es aber mit beliebigen PDF-Druckertreibern (selbst mit Microsoft's eigenem Print to PDF, wie oben geschrieben), dann leider nicht.
 
Was zeigt denn z.B. der Adobe Reader in den Dateieigenschaften eines Dokumentes an, welches mit Microsofts Print to PDF erstellt wurde? Sind dort keine Schriften eingebunden?

Über MS Print to PDF sieht das hier so aus:

1779995391859.png

Und das zu den Schriften:

1779995314597.png

Es wird die Schrift somit eingebunden und das Dokument ist durchsuchbar. Schrift ist Aptos in 12 Punkt.

Gibt es einen speziellen Grund, warum du überhaupt den Umweg über den PDF-Druck gehst? Muss in Richtung einer speziellen Anwendung gedruckt werden?
 
Wenn ich im Windows Editor ein Dokument erstelle, ist dort die Standard-Schriftart "Consolas", die beim Ausdruck als PDF auch eingebettet wird, und das PDF ist nach Text durchsuchbar:

schriften_in_pdf_editor.png

Erstelle ich hingegen in Word ein Dokument, ist die Standard-Schriftart "Aptos", beim Ausdruck als PDF wird hingegen "Calibri" eingebettet, und das PDF ist nicht als Text durchsuchbar:

schriften_in_pdf.png
 
Erstelle ich hingegen in Word ein Dokument, ist die Standard-Schriftart "Aptos", beim Ausdruck als PDF wird hingegen "Calibri" eingebettet, und das PDF ist nicht als Text durchsuchbar:

Okay, es scheitert also schon an der Einbettung. Schau doch bitte mal in die Word-Einstellungen.
Datei → Optionen → Speichern → Schriftarten in der Datei einbetten. Da gibt es verschiedene Einstellungen, wie und wann Schriften eingebettet oder ersetzt werden. Teste zuerst mal, die Einbettung von Schriften hier ganz zu deaktivieren.

Dann ändere sie doch, statt wochenlang herumzugurken. ;)

Na vielleicht soll die Schrift ja nun mal so sein. Ich würde das Dokument stattdessen einfach direkt aus Word als PDF speichern. Damit geht es ja auch. Die Frage, warum der Umweg über den PDF-Drucker gegangen wird, wurde ja leider nicht beantwortet.
 
  • ok1.de
  • thinkstore24.de
  • ok2.de - Notebook Computer Server
  • Preiswerte-IT - Gebrauchte Lenovo Notebooks kaufen

Werbung

Zurück
Oben