Mustersuche in PDFs

(Last Updated On: 20. Februar 2023)

Übliche Suche in PDFs

In PDF-Dateien zu suchen, ist grundsätzlich ganz einfach: Man ruft per Strg-f das Suchenfenster auf, gibt den zu suchenden Text ein und bestätigt mit Enter. Das trifft nicht nur auf Acrobat (Reader und Vollprogramm) zu, sondern auch auf die meisten Acrobat-Alternativprogramme.

Bild 1: Einfache Suche in Acrobat. Über die Schaltfläche „Weiter“ gelangt man zur nächsten Fundstelle.

Möchte man nicht nur von einer Fundstelle zur nächsten springen können, sondern würde man gerne eine Liste aller Fundstellen präsentiert bekommen, um die gewünschte mit einem Klick auswählen zu können, muss man die Erweiterte Suche aufrufen. Das geschieht (in allen mir bekannten PDF-Programmen) per Strg-Umsch-f .

Bild 2: Erweiterte Suche in Acrobat; hier das Eingabe-Fenster
Bild 3: Ergebnisliste in Acrobat
Bild 4: Ergebnisliste in Kofax Power PDF (bis 2019 Nuance Power PDF)

Bei der Erweiterten Suche wird in vielen PDF-Programmen, z. B. in Acrobat, zweistufig vorgegangen: Zunächst öffnet sich ein Fenster, in dem die Eingabe vorgenommen wird (vgl. Bild 2), das Abschicken der Suche öffnet ein zweites Fenster, in dem die Ergebnisliste angezeigt wird (Bild 3 und Bild 4). Für eine neue Suche muss (über die Schaltfläche Neue Suche) in das Eingabefenster zurückgegangen werden.

PDF-XChange ist eines der PDF-Programme, bei dem im Eingabefenster auch die Ergebnisliste angezeigt wird. Ein neuer Suchbegriff kann dann einfach direkt hier eingegeben werden (siehe Bild 5).

Bild 5: Eingabe- und Ergebnisfenster von PDF-XChange

Die nächste „Steigerung“ der Suche wäre die Suche in einem PDF-Datei-Index. Damit beschleunigt sich die Suche immens, was insbesondere bei großen PDF-Dateien oder bei der Suche über mehrere Dateien hinweg eine spürbare Hilfe ist. Auf die Details gehe ich hier nicht ein, diesem Punkt wird ein separater Beitrag gewidmet.

Muster- oder Maskensuche

Eine Suchenfunktion, die man von Textverarbeitungsprogrammen wie Word her kennt,  wird von den meisten PDF-Programmen leider nicht angeboten: die Mustersuche.

Das einzige mir bekannte PDF-Programm, mit dem sich nach Mustern suchen lässt, ist Kofax Power PDF.

Im Eingabefenster der Erweiterten Suche können vorgefertigte Muster (wie etwa E-Mail-Adresse) ausgewählt (Bild 6) oder ein eigenes Muster eingegeben werden (Bild 7).

Bild 6: Vorgefertigtes E-Mail-Adress-Muster in Kofax Power PDF Bild 7: Eingabe eines eigenen Musters (Look Like Search mit benutzerdefinierter Vorlage) in Kofax Power PDF

In der Hilfe von Kofax Power PDF wird nicht von eigenen  oder benutzerdefinierten „Mustern“ gesprochen, sondern von benutzerdefinierten „Vorlagen“ oder „Masken“. Das ist auch berechtigt, weil es sich um eine rudimentäre Mustersuche handelt, aber immerhin.

Hier ein Ausschnitt aus der Kofax-Power-PDF-Hilfe:

Verwenden Sie eine Maske, wenn die vordefinierten Vorlagen nicht Ihren Anforderungen entsprechen oder die Telefonnummern in Ihren Dokumenten einem anderen Muster folgen oder Sie nach Elementen mit einer festen Struktur suchen möchten, die nicht von den verfügbaren Vorlagen abgedeckt werden, z. B. Kfz-Kennzeichen, Flugnummern oder Dokumentkennzeichen in Ihrem eigenen Ablagesystem.

Wählen Sie die Option Looks Like Search™ Benutzerdefinierte Vorlage im entsprechenden Suchdialogfeld und geben Sie eine Maske ein. In der Maske legen Sie die Anzahl der gesuchten Zeichen und die Art der Zeichen, d. h. Zahlen, Buchstaben, Satzzeichen oder eine Mischung davon fest. Ein feststehender Text mit den zulässigen Zeichen beschreibt die Optionen in größerer Ausführlichkeit als diese Zusammenfassung:

A = Alphabet in Groß- oder Kleinschreibung (A-Z, a-z). Buchstaben mit Umlauten wie ä, ö, ü oder Akzenten wie é, à usw. und der Buchstabe ß sind nicht zulässig.
9 = Nur Ziffern (0-9)
O = Buchstabe oder Ziffer
X = Buchstabe, Ziffer oder Satzzeichen

In dem in Bild 7 zu sehenden Beispiel wird mit dem Muster #9.99{sid nach Textstellen gesucht, die beliebige Laufnummern haben, wobei die Laufnummer aus zwei Teilen aufbaut ist: einer einstelligen Zahl (im Muster ausgedrückt durch die Ziffer 9), gefolgt von einem Punkt, und danach einer zweistelligen Zahl (im Muster ausgedrückt durch die Ziffernfolge 99). Vor der Laufnummer steht eine Raute #, die aber so geschrieben im Text auftritt, also keine Musterfunktion hat. Nach der Laufnummer kommen weitere Zeichen ohne Musterfunktion (hier: [{sid).

Damit werden dann Textstellen wie #3.02{sidp8h6OM9f} oder #3.03{sidPu2TO8Px} gefunden.

Bild 8: Ergebnis einer Muster- oder Maskensuche in Kofax Power PDF

Weitere Muster können unter Einbeziehung der Muster-Buchstaben A, O und X gebildet werden. Wie immer bei Mustersuchen muss einige Male probiert werden, bevor die Suche das Ergebnis liefert, das man sich vorgestellt hat. Kofax Power PDF zeigt Fundstellen an, die länger als das angegebene Muster sind. Es ergänzt von sich aus bis zum Ende des „Wortes“ in dem das Muster vorkommt. Der Grund ist, dass es sich nicht um eine eigentliche Mustersuche, sondern um eine Maskensuche handelt. Aber das kann, wie im gezeigten Fall sogar ein Vorteil sein.

Hinweis:
Auch in Acrobat Standard und Pro sowie im Foxit PDF Editor kann nach Masken gesucht werden. Dazu wird ebenfalls die Erweiterte Suche aufgerufen, und es stehen vorgefertigte Vorlagen wie etwa E-Mail-Adressen oder Telefonnummern zur Verfügung. Was fehlt, ist die Möglichkeit, benutzerdefinierte Vorlagen, also eigene Muster, eingeben zu können. Daher wird im vorliegenden Beitrag, der sich der Mustersuche in PDFs widmet, nicht weiter auf diese Programme eingegangen.

Suchen und Markieren – Fundstellenmarkierung

Die Suche in Kofax Power PDF kann sogar noch um eine weitere sehr nützliche Funktion ergänzt werden: das Markieren aller Fundstellen. Die Markierung nimmt das Programm mit den Kommentarfunktionen vor. Daher ist der Aufruf von Suchen und Markieren auf der Kommentar-Registerkarte zu finden. Das aufgehende Suchenfenster ist identisch mit demjenigen der Erweiterten Suche, als Schaltfläche zum Abschicken der Suche wird aber Suchen und Markieren anstelle von einfach nur Suchen angeboten (siehe Bild 7). Die Fundstellenmarkierung ist im Zusammenhang mit der Muster-/Maskensuche sehr hilfreich, denn z. B. beim Korrekturlesen fallen die markierten Stellen (etwa beliebige Wörter mit Bindestrich) besonders gut auf.

Auf die Funktion Suchen und Markieren wird in einem separaten Beitrag noch einmal ausführlicher eingegangen.

RegEx-Suche in PDFs

Kofax Power PDF ist das einzige mir bekannte PDF-Programm, dass auch eine „echte“ Mustersuche auf Basis von Regular Expressions (RegEx) anbietet. Dabei geht es nicht um Suchen und Markieren, sondern um Suchen und Ersetzen. Zu finden ist diese Mustersuche in einem besonderen Modus des Programms: Man muss in den sogenannten Erweiterten Editor umschalten (Bild 9). Kofax nimmt dabei eine Konvertierung des gesamten Dokuments (Achtung: nur für kleine bis mittelgroße Dokumente praktikabel) in eine Textverarbeitungsumgebung vor. In dieser Umgebung stehen viele der z. B. aus Word bekannten Funktionen zur Verfügung, u.a. auch die Platzhaltersuche (Synonym: Mustersuche), siehe Bild 10.

Bild 9: Im Menü Bearbeiten findet sich die Schaltfläche zum Umschalten in den Erweiterten Editor.
Bild 10: Auf der Start-Registerkarte des Erweiterten Editors kann die Funktion Suchen und Ersetzen aufgerufen werden.

In Bild 10 wird das Muster zum Suchen des Beginns von Bildunterschriften oder von Bildhinweisen im Fließtext gezeigt: Abb. [0-9].[0-9]{1,2}. Erläuterung: [0-9] ist das Muster für eine beliebige Ziffer zwischen 0 und 9, mit {1,2} wird ausgedrückt, dass das davor stehende Muster (hier: [0-9]) mindestens einmal, höchstens zweimal vorkommen soll/darf. Gefunden würde also z. B. Abb. 1.4, aber auch Abb. 3.17.

Die RegEx-Suche allgemein (also nicht nur in PDFs) ist Thema eines separaten Beitrags.

Schreibe einen Kommentar

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.