BeautifulSoup / YouTube: Hat jemand eine Idee, was ich an dem Code verändern müsste, damit der alle /watch-Links extrahiert und diese ausgibt?

Hey Leute,

ich habe eine Frage zu Python und BeautifulSoup. Mein Webcrawler funktioniert eigentlich ganz gut, nur wenn ich damit versuche, Video-URLs zu extrahieren, geht nichts.

def get_linked_urls(self, url, html):
  soup = BeautifulSoup(html, 'html.parser')
  for link in soup.find_all('a'):
    path = link.get('href')
    print(path)

    if path and path.startswith('/watch?'):
      path = urljoin(url, path)

    yield path

"commandMetadata": {
  "webCommandMetadata": {
    "url": "/watch?v=HmP_wGYw1_g\u0026list=PLu0ocO48LFms5WsI1ipaeanxqRjn2fC_5\u0026index=2",

Ich habe vergessen, dass JavaScript natürlich ausgeführt wird, also funktioniert es nicht, wenn ich die Elemente anspreche, die ich unter den untersuchten Elementen gefunden habe.

Hat jemand eine Idee, was ich an dem Code verändern müsste, damit der alle /watch-Links extrahiert und diese ausgibt?

Gut wäre, wenn man noch https://www.youtube.com hinzufügen könnte.

1 Antwort

regex9

Von gutefrage auf Grund seines Wissens auf einem Fachgebiet ausgezeichneter Nutzer

HTML, programmieren, Python

09.06.2022, 21:42

BeautifulSoup parst nur den HTML-Code, den du übergibst. Das HTML wird nicht in der Form evaluiert, sodass vorher noch einmal Skripte o.ä. ausgewertet werden würden.

Du kannst stattdessen Selenium nutzen, um Inhalte aus der Webseite zu ziehen. Das Framework erlaubt die automatisierte Ausführung von Aktionen in einem Browser. Das heißt, du kannst darauf warten, bis die Webseite komplett geladen wurde und danach die Links herausziehen.

Ähnliche Beiträge

BeautifulSoup AttributeError (Python)?

Hi, was könnte diesen Fehler verursachen?

raise AttributeError(
AttributeError: ResultSet object has no attribute 'get'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

Code:

rs=session.get('https://nicht-die-echte-url.com')
soup=BeautifulSoup(rs.text, 'lxml')	
session_key=soup.find_all('a').get('href')
print(session_key.split("sesskey=")[1])

...zum Beitrag

Wie kan nich das Kachel problem lösen?

import requests

from bs4 import BeautifulSoup

import csv

output_file = csv.writer(open('prem_table_bs.csv', 'w'))

output_file.writerow(['Position', 'Team', 'Played', 'Won', 'Drawn', 'Lost', 'For', 'Against', 'GD', 'Points'])

result = requests.get("https://www.bbc.co.uk/sport/football/tables")

src = result.content

soup = BeautifulSoup(src, 'html.parser')

table = soup.find_all("table")

league_table = table[0]

teams = league_table.find_all("tr")

for team in teams[1:21]:

stats = team.find_all("td")

position = stats[0].text

team_name = stats[2].text

played = stats[3].text

won = stats[4].text

drawn = stats[5].text

lost = stats[6].text

for_goals = stats[7].text

against_goals = stats[8].text

goal_diff = stats[9].text

points = stats[10].text

output_file.writerow([position, team_name, played, won, drawn, lost, for_goals, against_goals, goal_diff, points])

...zum Beitrag

Wieso wird diese Webseite in React ohne Header und Footer gerendert?

Zur Aufgabe: Man soll drei Komponenten haben: Header, Main und Footer. Diese drei Komponenten müssen dann in die MainView und die MainView in die App.

Wenn ich die Webseite lade, ist zwar alles gut soweit, aber wenn ich über die Navigation auf Kontaktseite z.B. klicke, werden weder Footer noch Header angezeigt. Kann mir jemand bitte helfen?

import React from 'react';
import { Link } from 'react-router-dom';
import '../App.css';

const Header = () => (
  <header>
    <div id="logo">
      <Link to="/startseite">
        <img src="/img/Chicolio_Logo_trs_thumbnail.png" alt="Logo" />
      </Link>
    </div>
    <h1>Startseite</h1>
    <nav>
      <Link id="homepage" to="/startseite">Startseite</Link>
      <span>|</span> {/* Vertikaler Strich als visuelle Trennung */}
      <Link id="contactpage" to="/kontakt">Kontakt</Link>
      <span>|</span>
      <Link id="impressum" to="/impressum">Impressum</Link>
      <Link id="shoppingcart" to="/warenkorb">Warenkorb</Link>
    </nav>
  </header>
);

export default Header;

import React from 'react';
import '../App.css';

const Footer = () => (
  <footer className= "footer">
    <div>
      <p>&copy; Unsere Namen - 2024</p>
    </div>
  </footer>
);

export default Footer;

import React from 'react';
import Startseite from './Startseite';

const Main = () => {
  return (
    <div>
      <Startseite />
    </div>
  );
};

export default Main;

import React from 'react';
import Header from './Components/Header';
import Footer from './Components/Footer';
import Main from './Components/Main';
import './App.css';

const MainView = () => {
  return (
    <div>
      <Header />
      <Main />
      <Footer />
    </div>
  );
};

export default MainView;

import React from 'react';
import { BrowserRouter as Router, Route, Routes, Link } from 'react-router-dom';
import MainView from './MainView';
import Warenkorb from './Components/Warenkorb';
import Impressum from './Components/Impressum';
import Produkt from './Components/Produkt';
import Startseite from './Components/Startseite';
import Kontakt from './Components/Kontakt';
import './App.css';

// Wurzel-Appkomponente
function App() {
  return (
    <Router>
      <Routes>
        <Route path="/" element={<MainView />} />
        <Route path="/warenkorb" element={<Warenkorb />} />
        <Route path="/impressum" element={<Impressum />} />
        <Route path="/produkt/:id" element={<Produkt />} />
        <Route path="/startseite" element={<Startseite />} />
        <Route path="/kontakt" element={<Kontakt />} />
      </Routes>
    </Router>
  );
}

export default App;

Das ist, wenn man nach dem Browsen in der Navigation auf Startseite klickt.

Und das wird direkt beim Öffnen angezeigt:

...zum Beitrag

Crawler geht nicht weiter, wenn fertig mit einer URL?

Hallo zusammen,

ich arbeite gerade an einem Python-Crawler, der spezifisch für die Website beispielurl.de entwickelt wurde. Mein Ziel ist es, verschiedene Unterseiten zu crawlen, die jeweils unterschiedlichen Kategorien angehören, wie z.B. "Flaschenhersteller" und "Kartenhersteller". Der Crawler soll automatisch von einer Kategorie (z.B. beispielurl.de/Flaschenhersteller/page-1, beispielurl.de/Flaschenhersteller/page-2, usw.) zur nächsten wechseln (z.B. beispielurl.de/Kartenhersteller/page-1, beispielurl.de/Kartenhersteller/page-2, usw.), sobald alle Seiten der aktuellen Kategorie durchlaufen sind.

Leider funktioniert der Wechsel zwischen den Kategorien nicht wie erwartet. Der Crawler verarbeitet alle Seiten der ersten Kategorie korrekt, aber anstatt zur nächsten Kategorie zu wechseln, beginnt er wieder von vorn bei der ersten Kategorie, ohne die nachfolgenden Kategorien zu berücksichtigen.

Hier ist ein vereinfachter Ausschnitt meines Codes:

def process_page(self, url):
  soup = self.fetch_page_with_selenium(url)
  links = self.extract_PLZ_links(soup)

  for link in links:
    self.fetch_PLZ_details(link)

def run(self):
  try:
    for code in self.postal_codes:
      page_number = 1
      has_more_pages = True

      while has_more_pages:
        url = f"{self.base_url}/suche/-/{code}?page={page_number}"
        soup = self.fetch_page_with_selenium(url)
        links = self.extract_PLZ_links(soup)

        if links:
          for link in links:
            self.fetch_PLZ_details(link)
            page_number += 1
        else:
          has_more_pages = False
  finally:
    self.driver.quit()
    self.csv_handler.close_csv()

Hersteller = [Flaschenhersteller, Kartenhersteller, etc. ]
crawler = WebCrawler("https://beispielurl.de", Hersteller)
crawler.run()

Hat jemand eine Idee, warum der Crawler nicht zur nächsten Kategorie wechselt und wie ich dieses Problem beheben könnte? Ich bin für jeden Tipp dankbar!

...zum Beitrag

HTML/Jquery/Javascript - Teilnehmer hinzufügen?

Hallo zusammen :)
Habe folgendes PRoblem

Eine Liste an gesamte Studenten auf der Rechten Seite bei der es möglich sein soll, eine einzelne Zeile auszuwählen, auf das Plus zu klicken und den Teilnehmer in der linke Spalte einzublenden: Wie selektier ich die Optionen als Child Element und lasse sie Hilden und shown?

Ich brauch echt keinen Code, also wär natürlich cool aber eine kurze Erklärung wie ich an die Sache rangehen soll wäre mega! DANKE!!

Fotos von Code und HTML im Anhang:

...zum Beitrag

HTML - Wie einen Link auf meiner Homepage umbrechen?

Ich habe eine Homepage, auf der ich einen Link platziert habe, der jedoch - wenn ich die Internetseite am Handy betrachte - über den rechten Rand hinaus reicht.

Beispiel:

testversionhomepage.de/Einführung

Der fett gedruckte Teil der URL ist innerhalb und der normal gedruckte außerhalb des Displays, so dass man das Handy ins Querformat drehen müsste, um den Link in Gänze sehen zu können.

Kann ich das nicht mittels HTML (etwas anderes beherrsche ich nicht) festlegen, dass nach dem "/" der Link umgebrochen wird, wenn meine Homepage an einem Handy betrachtet wird? Sonst natürlich nicht.

...zum Beitrag

HTML + CSS Website hat weisse Seite am rand?

Wenn ihr nach links scrollt auf https://islikers-baukunst.ch/FreshHp, seht ihr einen weissen Rand aber kein visuelles Element dass das verursacht. Könnt ihr mir da helfen? Leider kann ich nicht die Website hier rein kopieren, da diese sonst zu lang wäre. Aber ich habe hier einen DropBox-Link: Zu DropBox

...zum Beitrag

Bild-Direktlink Größe ändern in der URL?

An die Nerds :P

Wie ändert man in der URL eines Bildes die Anzeigegröße? Beispielsweise habe ich eine URL die so aussieht: www.example.com/bild.jpg

Ich glaube shconmal URLs gesehen zu haben, bei denen noch so Art "Befehle" hinten dran standen, z.B. um die Größe zu ändern

In etwa www.example.com/bild.jpg&width=100&height=100 (das ist sicher Falsch, aber so in etwa muss das gehen, denke ich?)

Grüße

...zum Beitrag

HTML Element von rechts nach links schieben bei scroll?

Ich suche ein einfaches Beispiel wie man ein HTML Element von links nach rechts schieben laest sobald das browser fenster runter gescrollt wird an den punkt wo das html element sichtbar sein soll.

ihr kennt das bestimmt was ich meine, diese modernen webseiten designs haben sowas oft, dann sieht alles bisjen cooler aus.

es gibt aber so viele verschiedene beispiele das ich nicht so das richtige finde.

was ich will ist ganz einfach das html element nach schieben und am besten noch mit so ein effekt dazu zum beispiel von durchsichtig zu undurchsichtig.

...zum Beitrag

JS console.log in HTML ausgeben?

Hallöchen!

Wir arbeiten gerade an einer simplen Webseite in der Schule. Dabei müssen wir sowohl HTML als auch Javascript verwenden. Nun habe ich am Ende der JS Funktion jedoch einen console.log command, welcher mir ein bestimmtes Element eines Array ausgibt. Dies ist dann auch das Endprodukt der Funktion. Wie kann ich diesen console.log command nun auf meiner Webseite ausgeben? Bzw. wie kann ich dieses Element auf meiner Webseite aus geben.

Der command:

console.log(Liste[XinOriginal)

Das Element:

"e ist der häufigste Buchstabe: " + e + " mal"

Danke für eure Hilfe!

...zum Beitrag

HTML CSS Background Filter?

Hi ich habe seit einer Woche angefangen mit das Programmieren beizubringen, und bin nun auf folgendes Problem gestoßen.

Ich habe bei der HTML Datei in <body> das hier drin :

<body>

<ul>

<li><a href="" class="active"><b>Tv Shows</b></a></li>

<li><a href="" class="active">Movies</a></li>

<li><a href="" class="active">Recetly Added</a></li>

</ul>

<a href="" class="logo">NETFLIX</a>

</header>

<span>99% Match</span>

</div>

</div>

</section>

</body>

Und in der CSS Datei habe ich den Body so definiert:

body{

background: url(wallpaper1.jpg);

background-size: cover;

background-repeat: no-repeat;

height: 100vh;

Nun habe ich das Problem wenn ich nun einen Filter wie z.B Brightness anwenden will macht es ja nun logischerweise den ganzen Body Dunkler aber ich möchte nur den background verdunkelnm, sodass die anderen Elemente stärker zum Vorschein kommen.

Und meine zweite Frage wäre diesen background zu Skalieren weil auf dem Original Bild ist unten links ein kleiner Schriftzug der auf der Website nun abgeschnitten ist.

Vielen Dank :)

...zum Beitrag

JavaScript (html) Element zentrieren?

Hallo ich habe in JavaScript ein Element erstellen lassen und die Größe perfekt angepasst, nun muss es nur noch zentriert werden aber irgendwie funktioniert nichts, egal was ich versuche bleibt es immer in der linken oberen Ecke!

...zum Beitrag

Node.js und Bilddateien ueber Webserver?

Ich benutze node.js und express als webserver. Wenn Leute wissen in welchen Ordner auf meinem Webserver Bilder sind koennen die direkt ueber die URL das Bild abrufen, weil in der HTML Seite welche der Webserver zurueck gibt stehen in den IMG Tags die direkten URLs zu den Bildern.

Wenn ich will kann ich zwar im Express Router die IP Adresse von jeder Anfrage checken und nur bestimmten ip adressen erlauben die HTML Seite zu bekommen, aber wie gesagt kann jeder ueber die direkten Links die Bilder abrufen, weil da ist irgendwie kein router dazwischen.

Wie kann man das Problem loesen das auch dir Bilder nur an erlaubte IP Adressen gesendet werden?

...zum Beitrag

HTML, CSS, JavaScript: Komischer Rand entsteht, der da nicht hin soll. Wie entfernen?

Im Rahmen eines Projektes erstelle ich derzeit eine "Webseite". Das Problem ist, dass im blau umkreisten Menü ein Abstand entstanden ist, der dort nicht hingehört. Zur besseren Veranschaulichung wurden Elementen eine Farbe zugewiesen.

Link zum Code:
https://docs.google.com/document/d/15GRD_qnv_Rr4WNFKoEWZLnoZD5wKAh0WldTEo8ZLhuY/edit?usp=sharing

Screenshot

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen