Mustersuche in PDFs

Übliche Suche in PDFs

In PDF-Dateien zu suchen, ist grundsätzlich ganz einfach: Man ruft per Strg-f das Suchenfenster auf, gibt den zu suchenden Text ein und bestätigt mit Enter. Das trifft nicht nur auf Acrobat (Reader und Vollprogramm) zu, sondern auch auf die meisten Acrobat-Alternativprogramme.

Bild 1: Einfache Suche in Acrobat. Über die Schaltfläche „Weiter“ gelangt man zur nächsten Fundstelle.

Möchte man nicht nur von einer Fundstelle zur nächsten springen können, sondern würde man gerne eine Liste aller Fundstellen präsentiert bekommen, um die gewünschte mit einem Klick auswählen zu können, muss man die sog. erweiterte Suche aufrufen. Das geschieht (in allen mir bekannten PDF-Programmen) per Strg-Umsch-f .

Bild 2: Erweiterte Suche in Acrobat; hier das Eingabe-Fenster

Bild 3: Ergebnisliste in Acrobat
Bild 4: Ergebnisliste in Nuance Power PDF

Bei der erweiterte Suche wird in vielen PDF-Programmen, z. B. in Acrobat, zweistufig vorgegangen: Zunächst öffnet sich ein Fenster, in dem die Eingabe vorgenommen wird (vgl. Bild 2), das Abschicken der Suche öffnet ein zweites Fenster, in dem die Ergebnisliste angezeigt wird (Bild 3 und Bild 4). Für eine neue Suche muss (über die Schaltfläche Neue Suche) in das Eingabefenster zurückgegangen werden.

PDF-XChange ist eines der PDF-Programme, bei dem im Eingabefenster auch die Ergebnisliste angezeigt wird. Ein neuer Suchbegriff kann dann einfach direkt hier eingegeben werden (siehe Bild 5).

Bild 5: Eingabe- und Ergebnisfenster von PDF-XChange

Die nächste „Steigerung“ der Suche wäre die Suche in einem PDF-Datei-Index. Damit beschleunigt sich die Suche immens, was insbesondere bei großen PDF-Dateien oder bei der Suche über mehrere Dateien hinweg eine spürbare Hilfe ist. Auf die Details gehe ich hier nicht ein, diesem Punkt wird ein separater Beitrag gewidmet.

Mustersuche

Eine Suchenfunktion, die man von Textverarbeitungsprogrammen wie Word her kennt,  wird von den meisten PDF-Programmen leider nicht angeboten: die Mustersuche.

Das einzige mir bekannte PDF-Programm, mit dem sich nach Mustern suchen lässt, ist Nuance Power PDF.

Im Eingabefenster der erweiterten Suche können vorgefertigte Muster (wie etwa E-Mail-Adresse) ausgewählt (Bild 6) oder ein eigenes Muster eingegeben werden (Bild 7).

Bild 6: Vorgefertigtes E-Mail-Adress-Muster in Nuance Power PDF

Bild 7: Eingabe eines eigenen Musters in Nuance Power PDF

In der Hilfe von Nuance Power PDF wird nicht von eigenen  oder benutzerdefinierten „Mustern“ gesprochen, sondern von benutzerdefinierten „Vorlagen“ oder „Masken“. Das ist auch berechtigt, weil es sich um eine rudimentäre Mustersuche handelt, aber immerhin.

Hier ein Ausschnitt aus der Nuance-Power-PDF-Hilfe:

Verwenden Sie eine Maske, wenn die vordefinierten Vorlagen nicht Ihren Anforderungen entsprechen oder die Telefonnummern in Ihren Dokumenten einem anderen Muster folgen oder Sie nach Elementen mit einer festen Struktur suchen möchten, die nicht von den verfügbaren Vorlagen abgedeckt werden, z. B. Kfz-Kennzeichen, Flugnummern oder Dokumentkennzeichen in Ihrem eigenen Ablagesystem.

Wählen Sie die Option Looks Like Search™ Benutzerdefinierte Vorlage im entsprechenden Suchdialogfeld und geben Sie eine Maske ein. In der Maske legen Sie die Anzahl der gesuchten Zeichen und die Art der Zeichen, d. h. Zahlen, Buchstaben, Satzzeichen oder eine Mischung davon fest. Ein feststehender Text mit den zulässigen Zeichen beschreibt die Optionen in größerer Ausführlichkeit als diese Zusammenfassung:

A = Alphabet in Groß- oder Kleinschreibung (A-Z, a-z). Buchstaben mit Umlauten wie ä, ö, ü oder Akzenten wie é, à usw. und der Buchstabe ß sind nicht zulässig.
9 = Nur Ziffern (0-9)
O = Buchstabe oder Ziffer
X = Buchstabe, Ziffer oder Satzzeichen

In dem in Bild 7 zu sehenden Beispiel wird mit dem Muster #9.99{sid nach Textstellen gesucht, die beliebige Laufnummern haben, wobei die Laufnummer aus zwei Teilen aufbaut ist: einer einstelligen Zahl (im Muster ausgedrückt durch die Ziffer 9), gefolgt von einem Punkt, und danach einer zweistelligen Zahl (im Muster ausgedrückt durch die Ziffernfolge 99). Vor der Laufnummer steht eine Raute #, die aber so geschrieben im Text auftritt, also keine Musterfunktion hat. Nach der Laufnummer kommen weitere Zeichen ohne Musterfunktion.

Damit werden dann Textstellen wie #3.02{sidp8h6OM9f} oder #3.03{sidPu2TO8Px} gefunden.

Bild 8: Ergebnis einer Muster- oder Maskensuche in Nuance Power PDF

Weitere Muster können unter Einbeziehung der Muster-Buchstaben A, O und X gebildet werden. Wie immer bei Mustersuchen muss einige Male probiert werden, bevor die Suche das Ergebnis liefert, das man sich vorgestellt hat.

Nuance Power PDF zeigt Fundstellen an, die länger als das angegebene Muster sind. Es ergänzt von sich aus bis zum Ende des „Wortes“ in dem das Muster vorkommt.  Der Grund ist, dass es sich nicht um eine eigentliche Mustersuche, sondern um eine Maskensuche handelt. Aber das kann, wie im gezeigten Fall sogar ein Vorteil sein.

Hinweis: Eine „eigentliche“ Mustersuche wäre eine sog. RegEx-Suche (RegEx: regular expressions). Dabei muss u. a. genau angegeben werden, wie oft welche Zahlen oder Buchstaben auftreten. Die RegEx-Suche ist Thema eines separaten Beitrags, der dann aber mit PDFs nichts zu tun hat. RegEx-Suchen sind in PDFs nicht möglich.

Fundstellenmarkierung

Die Suche in Nuance Power PDF kann sogar noch um eine weitere sehr nützliche Funktion ergänzt werden: das Markieren aller Fundstellen. Diese Ergänzungsfunktion steht nicht nur bei der Mustersuche zur Verfügung, sondern bei jeder Suche, bei der Mustersuche ist sie aber besonders beeindruckend und hilfreich.

Aufgerufen wird die Funktion unter Menü <Kommentieren – Suchen und Markieren>. Das aufgehende Suchenfenster ist identisch mit dem bekannten, das Ergebnisfenster hat aber einige zusätzliche Schaltflächen:

  • Markierungstyp (mit Aufklappmenü, indem die Art der Markierung, z. B. „Hervorheben“, gewählt werden kann)
  • Alles auswählen (alternativ können bei den gewünschten Fundstellen Häkchen gesetzt werden) bzw. nach erfolgter Auswahl: Auswahl aufheben
  • Auswahl markieren

Das Ergebnis einer Mustersuche mit anschließender Markierung ist in Bild 9 zu sehen.

Bild 9: Suche mit anschließender Markierung in Nuance Power PDF

Man mache sich klar, dass mit dieser Funktion tatsächlich sämtliche Fundstellen auf einen Schlag markiert werden, und zwar permanent. Es ist daher durchaus berechtigt, von einer automatischen Markierung zu sprechen. Der Hinweis „permanent“ ist wichtig, weil die Markierungen nicht verschwinden, wenn das Suchenfenster geschlossen wird oder man auf eine andere Textstelle klickt. Vielmehr handelt es sich bei den Markierungen um ganz normale Kommentare, die von den anderen Kommentaren (wie „Hervorheben“) nicht unterschieden werden können; auf sie sind sämtliche bekannten Kommentarbefehle anwendbar. Das heißt, die Markierungen treten auch im Kommentarlisten-Fenster auf, sie können sortiert, gefiltert und exportiert werden, ihre Farbe lässt sich ändern usw. Wenn die entsprechende Optionseinstellung vorgewählt ist, wandert bei der Markierung sogar der markierte Text automatisch das Kommentarfenster – ein Merkmal, das z. B. beim Erstellen oder Bearbeiten/Prüfen von Indexen hilfreich sein kann.

Was Suchen und Markieren betrifft, so gibt es diese Funktion auch in PDF-XChange, allerdings ohne die Kombination mit der Mustersuche. In Acrobat ist dagegen keine Funktion zum automatischen Markieren von Fundstellen zu finden, zumindest nicht im Zusammenhang mit den üblichen Suchmöglichkeiten.

Das Thema „Markieren“ hat noch weitere Aspekte. So könnte der Wunsch aufkommen, eine Begriffsliste (Konkordanzliste) zu importieren und alle Begriffe der Liste automatisch im PDF-Dokument markieren zu lassen. Auch das geht! Allerdings nicht in den mir bekannten Acrobat-Alternativ-Programmen, sondern nur in Acrobat selbst und hier auch nur im Vollprogramm (Standard oder Pro). Die Funktion, die dazu verwendet wird, ist die sog. Schwärzungsfunktion, auf die in einem separaten Beitrag eingegangen wird. In diesem Sinn kann also auch Acrobat automatisch markieren.

Schreibe einen Kommentar

*