Text von seite mit text-kopierschutz kopieren?
Ich leser derzeit eine interessante geschichte online, die ich schon lange verfolge. Allerdings geht es auf dauer, trotz offenem tab, auf meinen Smartphoneakku daher möchte ich den text jetzt gerne in ein dokument übertragen um es offline zu lesen. Problem hierbei: Die seite hat einen, nachvollziehbaren, text-kopierschutz. Durch umwege hab ich den text natürlich im HTML quellcode gefunden dank chrome, allerdings ist so ziemlich jede zeile in 3 oder 4
container vergraben und es würde wochen dauern alles zu kopieren und abzuspeichern.
Daher frage ich mich, ob es eventuell schon tools gibt, diesen schutz zu umgehen, ähnlich wie das "F*ck It" Script in Google Chrome. Oder ob es andere möglichkeiten gibt, den text möglichst simpel zu kopieren, ohne abzutippen.
Ein wenig aufwendige arbeit ist dabei kein problem. Ich kann mit sich wiederholenden aufgaben arbeiten..
4 Antworten
warum etliche Seiten von Hand speichern?
Das überlässt man dem Webclient von Windows...
Dann müsste man auch noch den Text kopieren...
Das kann eine Batch zwar nicht, aber sie kann den Quelltext einer webseite nach einen bestimmten Marker absuchen und den gewünschten Text innerhalb des Markerbereichs ...
bei gutenberg.spiegel.de ist das <div id="gutenb">
...in eine neue datei Speichern.
Das Projektchen (ein Buch von Gutenberg.Spiegel.de zu extrahieren) liegt bei mir schon eine Weile auf Eis ,hiermit habe ich mal Grund die Nummer durchzuziehen.
Anfangs war ich auf Javascript lösungen mit ajax-XMLHttpRequest fixiert. ...aber das funktioniert nicht mit mit fremden Domains.
und wenn ich dann schoon mal die Seiten per Batch lokal mache (runterlade), kann ich den rest auch gleich per Stringsuche in Batch zuendebringen.
Jetzt wo ichs fertig habe bin ich selbst erstaunt wie trivial die ganze Aufgabe war.
da wie so oft der GF-editor das Zeitlich segnet, findest du meine neueste "Superbatch" auf Pastebin
https://pastebin.com/LuyNzw9P
Ich hoffe ich habe Dich inspiriert...
Hättest Du die Seite Deines Buchs genannt , wäre es nicht der Ulenspiegel von deCoster , sondern Dein Buch...:p
PS: diese Lösung interessiert sich nicht im geringsten um irgendwelche Javascript kopierschutz-spielereien....
der Browser wird einfach umgangen!
Ich stehe auf rohe Batchgewalt....
speicher die webpage als .txt und dann hast du was du brauchst ... ;-)
ps.: bei vielen pages ist der kopierschutz nur im mausmenü (rechtsklich) wirksam, nicht aber wenn du über das browsermenü reingehst ...
1. edit
2. select all
3. copy
(habe us englisches betriebssystem - in d müsste es sein bearbeiten, alles markieren, kopieren)
danke, es funktioniert. ich muss den text nachbearbeiten, aber es funktioniert. Über das browsermenü geht es, ein "alles auswählen" gibt es allerdings nicht. STRG+A regelt das dafür. danke!
du kannst auch versuchen die page zb. mit ms word zu öffnen - da ist der kopierschutz auch meist unwirksam!
Quelltext ohne das js zeug kopieren bzw einfach nur die textblöcke (html quellcode), in neuer .html lokal speichern, diese aufrufen und spätestens dann solltest du deinen text kopieren können. Der browser interpretiert dann ja das überschüssige html zeugs im optimalfall so das es nichtmehr stört. Das dürfte für einzelne artikel der schnellste weg sein
Im einfachsten Fall deaktivierst du kurzzeitig Javascript in deinem Browser und kopierst dir den gewünschten Text raus,
okay... entweder verstehe ich was falsch, oder es klappt nicht.
Beim abspeichern der seite als .txt dokument (strg + s -> dateiname.txt) erhalte ich nur ein langes HTML dokument. Dort ist dann wieder alles so massiv verschachtelt wie auch schon im browser. Es wäre natürlich eine option, wenn auch keine gute..
Wie ist das mit dem Browsermenü gemeint? Ich weiß was das mausmenü ist, mit dem Browsermenü kann ich aber nichts anfangen. vor allem, da ich ja nichtmal text mit linker maustaste markieren kann, dies wird ja ebenfalls schon vom schutz abgeblockt.