Text von seite mit text-kopierschutz kopieren?

4 Antworten

Im einfachsten Fall deaktivierst du kurzzeitig Javascript in deinem Browser und kopierst dir den gewünschten Text raus,

Woher ich das weiß:Berufserfahrung – Entwickle Webseiten seit über 25 Jahren.

warum  etliche Seiten  von Hand  speichern?
Das  überlässt  man dem Webclient  von Windows...
Dann  müsste  man auch  noch den Text  kopieren...
Das  kann eine Batch zwar nicht, aber sie  kann den Quelltext einer  webseite  nach  einen bestimmten Marker absuchen und den  gewünschten Text innerhalb des Markerbereichs ...
bei gutenberg.spiegel.de   ist das <div id="gutenb">
...in eine neue datei Speichern.

Das Projektchen (ein  Buch  von  Gutenberg.Spiegel.de  zu extrahieren) liegt  bei  mir  schon  eine Weile  auf  Eis ,hiermit habe  ich mal Grund die Nummer durchzuziehen.
Anfangs  war ich  auf  Javascript lösungen   mit  ajax-XMLHttpRequest fixiert. ...aber das  funktioniert nicht mit mit fremden Domains.

und wenn ich dann schoon  mal  die Seiten  per Batch lokal  mache (runterlade),  kann ich den  rest auch  gleich  per Stringsuche in Batch zuendebringen.

Jetzt  wo ichs  fertig  habe  bin  ich selbst erstaunt  wie trivial  die  ganze  Aufgabe  war.

da  wie so  oft der GF-editor das Zeitlich segnet,  findest  du  meine   neueste "Superbatch" auf Pastebin

https://pastebin.com/LuyNzw9P

Ich  hoffe ich  habe  Dich inspiriert...

Hättest Du  die Seite  Deines Buchs  genannt ,  wäre  es  nicht der Ulenspiegel  von deCoster , sondern  Dein Buch...:p


Erzesel  09.07.2017, 18:57

PS: diese Lösung  interessiert sich  nicht  im  geringsten   um irgendwelche Javascript  kopierschutz-spielereien....
der Browser  wird einfach umgangen!
Ich stehe  auf rohe Batchgewalt....

0

speicher die webpage als .txt und dann hast du was du brauchst ... ;-)

ps.: bei vielen pages ist der kopierschutz nur im mausmenü (rechtsklich) wirksam, nicht aber wenn du über das browsermenü reingehst ...


TheRiderGaming 
Beitragsersteller
 08.07.2017, 23:48

okay... entweder verstehe ich was falsch, oder es klappt nicht.

Beim abspeichern der seite als .txt dokument (strg + s -> dateiname.txt) erhalte ich nur ein langes HTML dokument. Dort ist dann wieder alles so massiv verschachtelt wie auch schon im browser. Es wäre natürlich eine option, wenn auch keine gute..

Wie ist das mit dem Browsermenü gemeint? Ich weiß was das mausmenü ist, mit dem Browsermenü kann ich aber nichts anfangen. vor allem, da ich ja nichtmal text mit linker maustaste markieren kann, dies wird ja ebenfalls schon vom schutz abgeblockt.

0
kleinkirmit  08.07.2017, 23:57
@TheRiderGaming

1. edit

2. select all

3. copy

(habe us englisches betriebssystem - in d müsste es sein bearbeiten, alles markieren, kopieren)

0
TheRiderGaming 
Beitragsersteller
 09.07.2017, 00:06
@kleinkirmit

danke, es funktioniert. ich muss den text nachbearbeiten, aber es funktioniert. Über das browsermenü geht es, ein "alles auswählen" gibt es allerdings nicht. STRG+A regelt das dafür. danke!

0
kleinkirmit  09.07.2017, 00:18
@TheRiderGaming

du kannst auch versuchen die page zb. mit ms word zu öffnen - da ist der kopierschutz auch meist unwirksam!

0

Quelltext ohne das js zeug kopieren bzw einfach nur die textblöcke (html quellcode), in neuer .html lokal speichern, diese aufrufen und spätestens dann solltest du deinen text kopieren können. Der browser interpretiert dann ja das überschüssige html zeugs im optimalfall so das es nichtmehr stört. Das dürfte für einzelne artikel der schnellste weg sein