Wie speichert Gutefrage so enorm viele Daten?

3 Antworten

Hundertausend - süß ;)
Wir reden bei 10 Millionen weiter, dann wird's langsam spannend :D
Die Frau von einem ehemaligen Kollegen hat Datenbank-Größen in Terabyte gezählt.
Und in der Wissenschaft wird in Petabyte gezählt, das sind Größenordnungen, ich weiß nicht mal, ob man die Anzahl Datensätze noch aussprechen kann.

Nochmal in vernünftig:

100.000e Datensätze sind nicht viel. gutefrage.net schreibt auf der "Über uns" Seite, dass es über 31 Millionen Fragen und 125 Millionen Antworten sind. Alte Fragen/Antworten sind aber nicht das Problem, sondern der Umfang der neuen Fragen und Antworten.
Außerdem besteht eine Frage vermutlich aus nicht sehr vielen Daten, Text ist ziemlich klein und eine Verknüpfung auf ein Thema ist am Ende das Tages vermutlich nur eine Id, also eine Zahl.

Das Speichern an sich ist nicht das Problem (Speicherplatz ist billig), sondern eher, wie schnell die Zugriffe (Lesen und Schreiben) sind, denn schnelle Lesezugriffe schließen häufig schnelle Schreibzugriffe aus.
Aber auch dafür gibt's Konzepte, z.B. kann man mit zwei unterschiedlich optimierten Datenbanken arbeiten, das heißt, deine Frage wird in eine Datenbank geschaufelt, in der die Konsistenz der Daten gewahrt bleibt, die dafür aber langsamer ist, dich stört das nicht, da nicht so viele Fragen aufeinmal gestellt werden.
Regelmäßig rennt dann ein Hintergrund-Prozess los und schaufelt alle neuen Fragen von der einen Datenbank in eine andere auf Lesezugriffe optimierte Datenbank, die dafür aber keine Konsistenz gewährleisten kann. Das ist dann die Datenbank, deren Daten Du beim Browsen angezeigt bekommst.
Ob gutefrage.net das auch so macht, weiß ich nicht, aber z.B. Facebook und Banken machen das vermutlich so oder so ähnlich.

Und Bilder/Dateien werden in der Regel nicht in der Datenbank gespeichert, sondern in einem Dateisystem und die können theoretisch beliebig viel verkraften, solange das NAS noch Platz frei hat - und da kann man jederzeit nachrüsten. Außerdem werden die Bilder nicht in voller Größe gespeichert, sondern nur die Größe, die auch angezeigt wird.

Problematisch wird es bei Big-Data, denn da geht es darum, 100e Millionen oder sogar Milliarden Datensätze in kurzer Zeit zu sammeln und zu verarbeiten. Mir hat mal eine Firma einen Job angeboten, die Daten aus Fabrikanlagen sammeln und analysieren wollten, da ging es dann um 100.000 Datensätze PRO SEKUNDE, dagegen ist gutefrage.net mit ihren 210.000 Fragen pro Monat richtig niedlich ;)

Bei Big-Data hast Du dann das Problem, dass Du rein kommende Daten nicht mehr direkt verarbeiten kannst, weil sich sonst ein "Datenstau" bilden würde. Stattdessen sammelt man erst mal möglichst schnell und überlegt sich dann ein System, wie man die Daten möglichst optimiert verarbeiten kann, ohne das Sammeln der Daten zu stören.

Ist nicht sehr viel, aber eben alles auf großen Servern, welche entweder in einem extra Raum stehen oder in einer großen Farm

Mit lieben Grüßen, Jan

Woher ich das weiß:eigene Erfahrung – Community-Experte in diesem Bereich

so viel ist das jetzt nicht…

Die Bilder werden hier automatisch runter skaliert…die Texte brauchen nicht viel.
Und Videos werden nur von YouTube & co eingebunden nicht bei gf selbst gespeichert.

Woher ich das weiß:eigene Erfahrung – Werdet ihr schon selber wissen