Python: .pdf aus https Umgebung herunterladen?

Hallo angenommen man hat eine https-Umgebung, etwa ein Intranet, welches damit läuft.

Angenommen man möchte nun via Python eine bestimmte url, etwa 'https:\\www.intranet\09.pdf' aufrufen.

Der Nutzer hat sich bei diesem Fall bereits einmal registriert/angemeldet.

Ich möchte die .pdf direkt herunterladen.

Wie gehe ich vor ?

Ich habe schon einige Lösungen ausrobiert aber irgendwie ging bisher keine der Lösungen.

2 Antworten

DasZitrone

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

Computer

19.12.2022, 15:17

Um eine PDF-Datei aus einer https-Umgebung herunterzuladen, können wir die Python-Bibliothek `requests` verwenden. Hier ist der Code dafür:

# Importiere die requests-Bibliothek
import requests


# Speichere die URL der PDF-Datei in einer Variablen
url = 'https://www.intranet/09.pdf'


# Sende eine HTTP GET-Anfrage an die URL und speichere die Antwort
response = requests.get(url)


# Öffne eine neue Datei mit dem Namen "09.pdf" im Write-Binary-Modus und schreibe den Inhalt der Antwort hinein
with open('09.pdf', 'wb') as f:
    f.write(response.content)

Wenn wir uns bereits bei der https-Umgebung registriert/angemeldet haben, sollte dieser Code in der Lage sein, die PDF-Datei erfolgreich herunterzuladen. Wenn wir jedoch auf eine geschützte Ressource zugreifen möchten, für die eine Authentifizierung erforderlich ist, müssen wir möglicherweise zusätzliche Schritte unternehmen, um uns beim Server zu authentifizieren. Dies könnte zum Beispiel das Hinzufügen von Cookies oder das Übermitteln von Anmeldeinformationen in den HTTP-Header der Anfrage umfassen.

----------------------------------------------------------------------------------------
Um sich zusätzlich bei einer https-Umgebung anzumelden und danach eine PDF-Datei herunterzuladen, ist hier eine überarbeitete Version des Codes:

 # Importiere die requests-Bibliothek
import requests


# Speichere die URL der Anmeldeseite und der PDF-Datei in Variablen
login_url = 'https://www.intranet/login'
pdf_url = 'https://www.intranet/09.pdf'


# Erstelle ein Dictionary mit den Anmeldeinformationen
login_data = {'username': 'myusername', 'password': 'mypassword'}


# Sende eine HTTP POST-Anfrage an die Anmelde-URL mit den Anmeldeinformationen
# und speichere die Antwort (diese enthält möglicherweise Cookies, die für die Authentifizierung benötigt werden)
login_response = requests.post(login_url, data=login_data)


# Sende eine HTTP GET-Anfrage an die URL der PDF-Datei und speichere die Antwort
pdf_response = requests.get(pdf_url, cookies=login_response.cookies)


# Öffne eine neue Datei mit dem Namen "09.pdf" im Write-Binary-Modus und schreibe den Inhalt der Antwort hinein
with open('09.pdf', 'wb') as f:
    f.write(pdf_response.content)

In diesem Beispiel senden wir zunächst eine HTTP POST-Anfrage an die Anmelde-URL mit unseren Anmeldeinformationen. Die Antwort enthält möglicherweise Cookies, die wir für die Authentifizierung bei zukünftigen Anfragen verwenden müssen. Wir speichern diese Cookies in einer Variablen und übergeben sie dann als Argument an die `cookies` -Option, wenn wir die HTTP GET-Anfrage an die URL der PDF-Datei senden. Auf diese Weise werden die Cookies mit der Anfrage übermittelt und der Server kann uns authentifizieren.

Woher ich das weiß:Studium / Ausbildung – Hochschulabschluss in Informatik (MSc)

maowb84

Beitragsersteller

20.12.2022, 07:10

Danke Teil 1 klappt leider schonmal nicht. Ich hatte früher auch schonmal etwa so versucht das Problem zu lösen; leider erfolglos. Teil 2 schau ich mir die Tage mal an, jedoch unsere URL die irgendwann so enden '[..bla....]04_(001)_MF.pdf?csf=1&web=1&e=H7g7yt' scheinen nicht eindeutig bezeichnet zu sein. versuche ich die MF.pdf dann anzuwählen passiert beim Ausführen meines Skriptes: rein gar nix (ich teste in einem größeren Projekt von mir, wo ich wenn etwas nich geht direkt im Ausgangsmenü lande).

maowb84

Beitragsersteller

20.12.2022, 07:13

@maowb84

Ich glaube es liegt an den URLs. Hatte sogar schonmal versucht das entsprechende DOkument via OneDrive über unser Intranet zu linken. Auch hier erfolglos -.-

elmex7

Nutzer, der sehr aktiv auf gutefrage ist

im Thema Webseite

20.12.2022, 14:11

Was sagen denn eventuelle Fehlermeldungen? Hat das "Intranet" vielleicht selbst signierte Zertifikate? Mal SSL verify ausgeschaltet?

Ähnliche Beiträge

BeautifulSoup / YouTube: Hat jemand eine Idee, was ich an dem Code verändern müsste, damit der alle /watch-Links extrahiert und diese ausgibt?

Hey Leute,

ich habe eine Frage zu Python und BeautifulSoup. Mein Webcrawler funktioniert eigentlich ganz gut, nur wenn ich damit versuche, Video-URLs zu extrahieren, geht nichts.

def get_linked_urls(self, url, html):
  soup = BeautifulSoup(html, 'html.parser')
  for link in soup.find_all('a'):
    path = link.get('href')
    print(path)

    if path and path.startswith('/watch?'):
      path = urljoin(url, path)

    yield path

"commandMetadata": {
  "webCommandMetadata": {
    "url": "/watch?v=HmP_wGYw1_g\u0026list=PLu0ocO48LFms5WsI1ipaeanxqRjn2fC_5\u0026index=2",

Ich habe vergessen, dass JavaScript natürlich ausgeführt wird, also funktioniert es nicht, wenn ich die Elemente anspreche, die ich unter den untersuchten Elementen gefunden habe.

Hat jemand eine Idee, was ich an dem Code verändern müsste, damit der alle /watch-Links extrahiert und diese ausgibt?

Gut wäre, wenn man noch https://www.youtube.com hinzufügen könnte.

...zum Beitrag

Python neun tab mit urlabfrage öffnen?

Moin.

Vorab Entschuldigung für den Grad nicht umfangreich fragen title.

also er hat Eine liste mit url die soll er abfragen. Und sobald Die url sich ändert soll er neue tab mit der neuen url aus der url list öffnen. habe auch schon einen code dazu aber komme nicht mehr weiter.
from urllib import response

from requests import get

import time

import webbrowser

url_list = ["https://www.google.com/", "https://www.youtube.com/",

"https://www.facebook.com/", "https://www.instagram.com/", "https://www.twitter.com/"]

webbrowser.open(url_list[0])

while True:

response = get(url_list[0])

print(response.status_code)

if response.status_code != 200:

url_list.pop(0)

if len(url_list) == 0:

break

webbrowser.open(url_list[0])

continue

time.sleep(30)

...zum Beitrag

Warum wird mein Python Programm als Virus gekennzeichnet?

Jetzt haut er mir de Defender diese Meldung raus: Trojan:Win32/Sabsik.FL.A!ml
Aber das ist mein Skript und ist kein Trojaner.
Das schreckt ab und es wird keiner installieren. Es ist 100% kein Virus! Was soll also diese Meldung?

Hier der Link zu meinem Programm zum Herunterladen:
https://mega.nz/file/lPAAFYib#yaBxSYmZLmbREUHVWa2ll1ZbuTTWUouYTo8yDapuA0Q

Bitte Hilfe.

...zum Beitrag

Welches CMS System nutzt YouTube?

Hi,

Ich würde gerne wissen, welches CMS System YouTube nutzt.

Ich hoffe meine Frage ergibt Sinn.

Danke im Voraus!

...zum Beitrag

OpenWeatherMap Python?

import requests

API_KEY = "xyz"

city = "Berlin"

url = 'https://api.openweathermap.org/data/2.5/weather?q={city}&appid={API_KEY}&units=metric'

data = requests.get(url).json()

temp = ['main']['temp]-273.15

print('Temperatur: ' + temp )

Code gibt es so im Internet. Allerdings kommt bei mir folgender Error:

Traceback (most recent call last):

File "/xyz/wetter.py", line 9, in <module>

temp = data['main']['temp']-273.15

KeyError: 'main'

Irgendwelche Ideen an was das liegen kann?

...zum Beitrag

Python 5 Ziffern&Buchstaben Pin Brute Force?

Moin,

folgendes:

Ich möchte Bilddateien von einem Webserver herunterladen. Jedes Bild hat seine individuelle URL xxxxx.com/bbbbb

b besteht aus 5 Ziffern oder Buchstaben. Sprich

5 Pins | a - z = 26 und 0 - 9 = 10 (= 36) 36^5

wären dann 60.466.176 mögliche Kombinationen. Nun suche ich nach einer möglichst effektiven Methode, mit einem Python Script das Bild auf jeder der möglichen Kombinationen herunterzuladen. (Natürlich nicht alle, wobei die Gesamtgröße "nur" bei ca. 36GB liegen würde)

Ist da Selenium da die beste Wahl, oder gibt es eine bessere Methode? Und hat jemand von euch effektive Algorithmen parat, um die Kombinationen zu generieren?

...zum Beitrag

Text unter Bild in HTML hinzufügen?

Ich habe ein Bild. Darunter habe ich ein Text platziert. Allerdings geht der Horizontal von links nach rechts, was es auch soll. Nur soll er da anfangen, wo auch das Bild beginnt und enden, wo das Bild endet. In den zwei Bildern könnt ihr erkennen, wie es es gerade habe und nicht will und wie ich es gerne haben würde.

<!DOCTYPE html>
<html>
<head>
    <title>Film- und Serienbeschreibungen</title>
  


  <style>
    img {
        display: block;
        margin: 0 auto;
        width: 1000px;
        border-radius: 10px;
    }


    body {
        text-align: center;
    }


    p {
        
    }
  </style>
</head>
  <body>
    <img src="mrrobotscene.jpg">
    <h1>Mr. Robot - Beschreibung</h1>
    <p>Mr. Robot ist eine US-amerikanische Fernsehserie, die von Sam Esmail entwickelt wurde. Die Serie handelt von Elliot Alderson, einem jungen Programmierer, der für eine Cyber-Sicherheitsfirma arbeitet und in seiner Freizeit zum Hacker wird. Elliot leidet unter sozialen Ängsten und Depressionen und verfällt in eine Art Schizophrenie, die von seinem imaginären Freund, Mr. Robot, ausgelöst wird</p>
    
  </body>
</html>

...zum Beitrag

nach pyinstaller Dateipfad weg?

Moin zusammen!

Ich habe ein Python Programm. In dem Programm werden PDF Dateien erstellt mit Bildern und Datenbank Informationen welche über SQL Abfragen in das PDF eingebettet werden. Das PDF wird dann in einem Ordner abgelegt und über os im Browser angezeigt, funktioniert alles! Wenn ich das ganze nun mit pyinstaller in eine exe konvertiere legt er die PDF Datei nicht mehr ab. Ich habe es bereits mit allen Varianten der Pfad Gebung ausprobiert ohne Erfolg. Auch im pyinstaller habe ich alle Pfade und Verzeichnisse hinzugefügt was bei Images und icons auch Problemlos funktioniert. ich vermute die fehlende Berechtigung des Schreibens bei pyinstaller? Hat jemand ähnliches Problem oder beriets eine Lösung oder Alternative?

Danke Com!

...zum Beitrag

Python Selenium xpath ul / li?

Hallo Zusammen,

ich versuche aktuell über Selenium eine Website auszulesen. Zum Auslesen nutze ich Selenium xpath. Es geht um folgende Bespielseite: https://www.westernwelt.com/Cowboyhut-3X-von-Resistol-aus-Filz_1

Der von Chrome kopierte xpath lautet:
//*[@id="product-offer"]/div[2]/div/div[2]/div[2]/div/dl/dd[2]/div/div/div/ul/li[3]/a/span/span/span

Sobald in diesem Pfad ein ...ul/li/... vorkommt bekomme ich keine Ergebnisse mehr. Wo ist hier mein Denkfehler?

from selenium import webdriver
from selenium.webdriver.common.by import By#

url= 'https://www.westernwelt.com/Cowboyhut-3X-von-Resistol-aus-Filz_1'

driver = webdriver.Chrome()
driver.get(url)

xpath = '//*[@id="product-offer"]/div[2]/div/div[2]/div[2]/div/dl/dd[2]/div/div/div/ul/li[3]/a/span/span/span'
elements = driver.find_element(by=By.XPATH, value=xpath)

...zum Beitrag

Python 0000 bis 9999 generieren?

Hi, komische Frage, ich weiß. Also ich will alle Zahlen Kombinationen generieren die 4 Stellig sind. Jemand Ahnung wie das geht? Bin bisschen Planlos, hab gerade irgendwie keine Idee wie das gehen kann.....

...zum Beitrag

Wie fange ich mit Programmieren lernen an?

...zum Beitrag

Wie verpackt man die URL für einer REST-Abfrage richtig?

Ich habe ein Java-Programm, was Daten von einer REST-Api bezieht. Fürs erste hab ich das zum testen ganz simpel in etwa so gemacht:

String id = 5;
String url = "https://...where=ID%3D" + id + "..."; //seeehr lang
JsonObjectRequest request = new JsonObjectRequest(..., url, ...);

Nun muss das endlich mal schön gemacht werden. Ich kann nicht mehrere URLs so hässlich mitten in der Klasse stehen lassen. Ich weiß aber gar nicht, wie man sowas "professionell" macht. Eigentlich gehört das doch irgendwie in eine eigene Klasse? Packt man die Domain in irgendeine eigene Quelldatei (res)? IDE=Android Studio. Sollte man noch was beachten (sollte man parsen oder so)?

Nehme gerne auch Links zu Hilfeseiten, ich habe nur keine Ahnung, wie ich sowas googeln soll.

...zum Beitrag

Python requests findet Seite nicht?

Hi ich nutze requests um eine Suchanfrage auf einer Seite zu starten.
Wenn ich den Link über den Brower öffne finde ich den gesuchen inhalt.

Wenn ich nun den gleichen link über python requests aufsuche finde ich keinen Inhalt.
Ich bin absolut verzweifelt.

Link:
https://saddle-world-online.de/wp-json/wp/v2/media?search=ex_18-13_schwarz

Ich nutze folgenden Code:

import requests

url =  'https://saddle-world-online.de/wp-json/wp/v2/media?search=ex_18-13_schwarz'
response = requests.get(url)
result = response.json()

Ergebnis: []

...zum Beitrag

Der Start in die Programmierung, gute Tipps?

Moin Leute,

bin am Anfang meiner Reise in die Welt der Programmierung: Station: HTML und CSS - danach kommt Javascript.

Welche Sprachen nutzt ihr und für welche Art von Programmierung? Was haltet ihr von Go und Rust und wofür verwendet ihr diese Sprachen?

In welche Richtung es mich am Ende verschlägt, weiss ich noch nicht. Deshalb wäre es cool, wenn ihr mir die Fragen oben beantworten könntet.

Besten Dank und einen wundervollen Abend euch allen.

...zum Beitrag

Was möchtest Du wissen?

Deinen Beitrag erstellen