Warum lassen sich Große PDF Dateien nicht nach Wörtern+ durchsuchen?
Hallo,
ich habe hier ein 2500 seitiges PDF Dokument und würde dieses gerne nach Schlagwörteren durchsuchen. Leider stürtzt es immer wieder ab, wenn ich das tue.
Sowohl die online Version, gedownloadet als auch auf dem iPad in goodnotes importiert funktioniert es nicht. Jedesmal scheint das System überlastet zu sein.
Das muss doch irgendwie funktionieren?
1 Antwort
Hi Palle112
ich kenne dein PDF nicht, deshalb mal allgemein:
- PDF können Bilder und/oder Texte enthalten
- wenn das PDF direkt mit einer Druckfunktion gedruckt wurde, bleiben die Informationen der Schrift erhalten, also sind sie durchsuchbar.
- wurde das PDF eingescannt, dann hast du keine Information drin, sondern 2.500 Bilder. Die sind so nicht durchsuchbar - da müsste man eine OCR-Stufe dazwischenschalten. Das ist aufwändig, weil bei jedem Suchvorgang 2.500 Seiten Bild in Text gewandelt werden müssten.
Bedeutet: Bilder kann man nicht ohne Vorverarbeitung als Text durchsuchen.
Nur ein Tipp.
Je älter es ist, umso wahrscheinlicher ist es, dass es einfach gescannt wurde (weil es damals die Technik zur PDF-Generierung nicht gab).
Vor ca. 15-20 oder älter Jahren war die Generierung überhaupt nicht denkbar.
Du kannst einen Mini-Test machen: markiere in deinem PDF-Reader einen Namen und füge ihn in Excel oder Word rein. Wenn da nur ein Bild kommt, ist es gescannt.
Das Buch wurde im Rahmen einer Digitalisierungsaktion ca. im Jahre 2022 professionell durch eine Bibliothek schrifterkennungskonform verscannt und sind somit der breiten Öffentlichkeit zur Verfügung gestellt. Das ist auch der Grund, warum mir die Website selbst dieses Buch und auch andere Dokumente mit dem von mir gesuchten Namen vorschlägt. Somit muss irgendwo in dem hier genanntem Buch der Name versteckt sein.
Ok - dann muss das funktioniert. Nimm dir man einen Namen auf Seite 10 oder irgendwo und suche den. Der muss gefunden werden.
Zweite Möglichkeit: es kann sein, dass der Hauptspeicher im PC nicht reicht. Mal auf einem anderen PC versuchen. Das OCR schluckt Ressourcen und Zeit.
Das habe ich schon gemacht. Er findet ab und an auch was auf den ersteren Seiten. Ich werde es mal auf meinem anderen Rechner testen, obwohl eigentlich mein ipad der neusten Generation genügend Rechenleistung haben müsste. Ich werde berichten… Danke derwil!
Perfekt - du hast es geschafft. So wie du berichtet hast - es hört sich so an, dass das iPad einfach nicht genug Hauptspeicher für das OCR oder den Suchvorgang hatte.
Prima - Danke
Es handelt sich um en historisches Adressbuch, auf welches ich gestoßen bin, als ich im Internet nach meinem Familienname zur Ahnenforschung gestoßen bin:
https://www.sbc.org.pl/dlibra/publication/657952/edition/618940
Der Name muss also irgendwo hierin enthalten sein. Es ist mE durchsuchbar aber irgendwie kommt das System mit der Datenmenge scheinbar nicht klar )-: