Warum lassen sich Große PDF Dateien nicht nach Wörtern+ durchsuchen?

1 Antwort

Hi Palle112

ich kenne dein PDF nicht, deshalb mal allgemein:

  • PDF können Bilder und/oder Texte enthalten
  • wenn das PDF direkt mit einer Druckfunktion gedruckt wurde, bleiben die Informationen der Schrift erhalten, also sind sie durchsuchbar.
  • wurde das PDF eingescannt, dann hast du keine Information drin, sondern 2.500 Bilder. Die sind so nicht durchsuchbar - da müsste man eine OCR-Stufe dazwischenschalten. Das ist aufwändig, weil bei jedem Suchvorgang 2.500 Seiten Bild in Text gewandelt werden müssten.

Bedeutet: Bilder kann man nicht ohne Vorverarbeitung als Text durchsuchen.

Nur ein Tipp.


Palle112 
Beitragsersteller
 16.08.2023, 17:41

Es handelt sich um en historisches Adressbuch, auf welches ich gestoßen bin, als ich im Internet nach meinem Familienname zur Ahnenforschung gestoßen bin:

https://www.sbc.org.pl/dlibra/publication/657952/edition/618940

Der Name muss also irgendwo hierin enthalten sein. Es ist mE durchsuchbar aber irgendwie kommt das System mit der Datenmenge scheinbar nicht klar )-:

1
norbertk62  16.08.2023, 17:50
@Palle112

Je älter es ist, umso wahrscheinlicher ist es, dass es einfach gescannt wurde (weil es damals die Technik zur PDF-Generierung nicht gab).

Vor ca. 15-20 oder älter Jahren war die Generierung überhaupt nicht denkbar.

Du kannst einen Mini-Test machen: markiere in deinem PDF-Reader einen Namen und füge ihn in Excel oder Word rein. Wenn da nur ein Bild kommt, ist es gescannt.

0
Palle112 
Beitragsersteller
 16.08.2023, 18:08
@norbertk62

Das Buch wurde im Rahmen einer Digitalisierungsaktion ca. im Jahre 2022 professionell durch eine Bibliothek schrifterkennungskonform verscannt und sind somit der breiten Öffentlichkeit zur Verfügung gestellt. Das ist auch der Grund, warum mir die Website selbst dieses Buch und auch andere Dokumente mit dem von mir gesuchten Namen vorschlägt. Somit muss irgendwo in dem hier genanntem Buch der Name versteckt sein.

0
norbertk62  16.08.2023, 18:12
@Palle112

Ok - dann muss das funktioniert. Nimm dir man einen Namen auf Seite 10 oder irgendwo und suche den. Der muss gefunden werden.

Zweite Möglichkeit: es kann sein, dass der Hauptspeicher im PC nicht reicht. Mal auf einem anderen PC versuchen. Das OCR schluckt Ressourcen und Zeit.

0
Palle112 
Beitragsersteller
 16.08.2023, 18:24
@norbertk62

Das habe ich schon gemacht. Er findet ab und an auch was auf den ersteren Seiten. Ich werde es mal auf meinem anderen Rechner testen, obwohl eigentlich mein ipad der neusten Generation genügend Rechenleistung haben müsste. Ich werde berichten… Danke derwil!

1
Palle112 
Beitragsersteller
 17.08.2023, 19:15
@Palle112

So, am PC hat das Durchsuchen des Dokumentes problemlos funktioniert,

1
norbertk62  17.08.2023, 19:21
@Palle112

Perfekt - du hast es geschafft. So wie du berichtet hast - es hört sich so an, dass das iPad einfach nicht genug Hauptspeicher für das OCR oder den Suchvorgang hatte.

Prima - Danke

0