Warum lassen sich Große PDF Dateien nicht nach Wörtern+ durchsuchen?

Hallo,

ich habe hier ein 2500 seitiges PDF Dokument und würde dieses gerne nach Schlagwörteren durchsuchen. Leider stürtzt es immer wieder ab, wenn ich das tue.

Sowohl die online Version, gedownloadet als auch auf dem iPad in goodnotes importiert funktioniert es nicht. Jedesmal scheint das System überlastet zu sein.
Das muss doch irgendwie funktionieren?

1 Antwort

norbertk62

16.08.2023, 17:33

Hi Palle112

ich kenne dein PDF nicht, deshalb mal allgemein:

PDF können Bilder und/oder Texte enthalten
wenn das PDF direkt mit einer Druckfunktion gedruckt wurde, bleiben die Informationen der Schrift erhalten, also sind sie durchsuchbar.
wurde das PDF eingescannt, dann hast du keine Information drin, sondern 2.500 Bilder. Die sind so nicht durchsuchbar - da müsste man eine OCR-Stufe dazwischenschalten. Das ist aufwändig, weil bei jedem Suchvorgang 2.500 Seiten Bild in Text gewandelt werden müssten.

Bedeutet: Bilder kann man nicht ohne Vorverarbeitung als Text durchsuchen.

Nur ein Tipp.

Palle112

Beitragsersteller

16.08.2023, 17:41

Es handelt sich um en historisches Adressbuch, auf welches ich gestoßen bin, als ich im Internet nach meinem Familienname zur Ahnenforschung gestoßen bin:

https://www.sbc.org.pl/dlibra/publication/657952/edition/618940

Der Name muss also irgendwo hierin enthalten sein. Es ist mE durchsuchbar aber irgendwie kommt das System mit der Datenmenge scheinbar nicht klar )-:

norbertk62

16.08.2023, 17:50

@Palle112

Je älter es ist, umso wahrscheinlicher ist es, dass es einfach gescannt wurde (weil es damals die Technik zur PDF-Generierung nicht gab).

Vor ca. 15-20 oder älter Jahren war die Generierung überhaupt nicht denkbar.

Du kannst einen Mini-Test machen: markiere in deinem PDF-Reader einen Namen und füge ihn in Excel oder Word rein. Wenn da nur ein Bild kommt, ist es gescannt.

Palle112

Beitragsersteller

16.08.2023, 18:08

@norbertk62

Das Buch wurde im Rahmen einer Digitalisierungsaktion ca. im Jahre 2022 professionell durch eine Bibliothek schrifterkennungskonform verscannt und sind somit der breiten Öffentlichkeit zur Verfügung gestellt. Das ist auch der Grund, warum mir die Website selbst dieses Buch und auch andere Dokumente mit dem von mir gesuchten Namen vorschlägt. Somit muss irgendwo in dem hier genanntem Buch der Name versteckt sein.

norbertk62

16.08.2023, 18:12

@Palle112

Ok - dann muss das funktioniert. Nimm dir man einen Namen auf Seite 10 oder irgendwo und suche den. Der muss gefunden werden.

Zweite Möglichkeit: es kann sein, dass der Hauptspeicher im PC nicht reicht. Mal auf einem anderen PC versuchen. Das OCR schluckt Ressourcen und Zeit.

Palle112

Beitragsersteller

16.08.2023, 18:24

@norbertk62

Das habe ich schon gemacht. Er findet ab und an auch was auf den ersteren Seiten. Ich werde es mal auf meinem anderen Rechner testen, obwohl eigentlich mein ipad der neusten Generation genügend Rechenleistung haben müsste. Ich werde berichten… Danke derwil!

Palle112

Beitragsersteller

17.08.2023, 19:15

@Palle112

So, am PC hat das Durchsuchen des Dokumentes problemlos funktioniert,

norbertk62

17.08.2023, 19:21

@Palle112

Perfekt - du hast es geschafft. So wie du berichtet hast - es hört sich so an, dass das iPad einfach nicht genug Hauptspeicher für das OCR oder den Suchvorgang hatte.

Prima - Danke

Warum lassen sich Große PDF Dateien nicht nach Wörtern+ durchsuchen?

1 Antwort

Windows 11: Gesamten PC nach einem bestimmten Wort in PDF-Dokumenten durchsuchen?

Dokumente von GoodNotes in PDF exportieren (MB-Bereich)?

Wie große PDFs komprimieren [Goodnotes - lange Ladezeiten]?

Scanner App ohne Qualität Verlust?

Digitale Unterschrift auf PDF erkennen?

Wie importiere ich ein pdf-Dokument auf eine Seite in GoodNotes?

Von PDF-Dokument nur bestimmte Seiten drucken?

Wie Goodnotes Datei in PDF umwandeln?

Beidseitig drucken bei Mac?

Wie kann ich mehrere PDF-Dateien, auf einmal drucken?

Welches Dateiformat ist das sicherste für die Langzeitarchivierung einer Textdatei, PDF?

GoodNotes 5 Export Fehler pdf?

PDF Dokumente durchsuchen mit mehreren Wörtern?

Programm/Seite, dass Dokumente zusammenfasst?