Welche Methoden benutzt Archive.org um die ganzen Seiten der letzen Jahre zu speichern?

1 Antwort

Ich nehme an, Du möchtest nicht wissen, wie die Daten (rund 45 Petabyte) gespeichert werden, sondern wie diese Daten überhaupt erfasst werden.

Dazu gibt es sogenannte Crawler. Das ist ein Stück Software, das automatisch und regelmäßig Internetseiten ausliest und kopiert. Suchmaschinen arbeiten genau so. Man hat die Möglichkeit, seine Webseite bei der Suchmaschine oder halt archive.org anzumelden. Dann kommt der Crawler vorbei und ruft die Seite ab. Der Crawler folgt auch selbstständig Links, sodass Unterseiten oder auch andere verlinkte Webseiten gleich mit durchsucht werden. Deshalb landen auch Seiten, die nicht explizit angemeldet wurden, irgendwann im Suchindex bzw. im Archiv.