Ich versuche gerade eine Funktion in python zu schreiben, die es mir ermöglicht Text aus .docx also Word Dateien zu extrahieren. Dazu verwende ich die Bibliothek pyth-docx. Mein Programm tut auch was es soll, wenn ich eine docx Datei in python erstelle und anschließend meine Funktion verwende gibt es mir den Text zurück.
Bei von mir modifizierten oder erstellten Word Dokumenten kann es aber den pfad nicht finden und gibt mir PackageNotFoundError zurück. Im Internet bin ich darauf gekommen zu überprüfen, ob es sich bei meiner Datei um eine Zip-Datei handelt. Also hab ich dies mit zipfile gemacht und tatsächlich sind meine gespeicherten Word Dokumente keine zipfiles. Was läuft hier schief? Nochmal mein code zur überprüfung:
doc = docx.Document()
doc.add_paragraph("Hallo")
doc.save(test_path")
print(is_zipfile(test_path))
//output = true
wenn ich anschließend in diesen test_path gehe, eine Zahl tippe und speichern dürcke- >
//output = false
Sind moderne docx dokumente keine zip files mehr? Oder was läuft schief bei mir?