Kann ich eine Suchmaschine wie google selbst erstellen?

Question

Hey leute, ich wollte wissen ob es m&ouml;glich ist eine Suchmaschine, wie google, also vom Prinzip her, selber zu erstellen?

TeeTier · Answer

Ja, das geht, und ist jetzt nicht soooo unendlich kompliziert, erfordert aber viel Wissen auf vielen Gebieten, und du musst viele Kleinigkeiten ber&uuml;cksichtigen. Zumindest, wenn du grob die Funktionalit&auml;t von Googles Websuche kopieren willst, und nicht vor hast, jede einzelne Unterseite einer jeden Website nahezu in Echtzeit zu crawlen.
Alles aufzulisten w&uuml;rde hier den Rahmen sprengen, und die ben&ouml;tigte Hardware h&auml;ngt stark davon ab, was genau alles im Index landen soll.
Ich habe mal etwas &auml;hnliches gemacht, und hatte alles auf einem alten Samsung-Laptop mit Dual-Core 32-Bit Pentium zu laufen. Damit habe ich &uuml;ber eine 16000er DSL Leitung etwas &uuml;ber eine Stunde gebraucht, um (fast) alle Websites des gesamten Deutschen Internets mit durchschnittlich 5 Unterseiten zu indizieren.
Ich hatte im Schnitt ca. 10000 Crawling-Prozesse parallel laufen, wobei der Download einer Webseite in HTML-Form ca. eine Sekunde gedauert hat.
Es gibt an die 15 Mio. Websites, die eine DE-Domain besitzen, und von denen habe ich anfangs mithilfe eines W&ouml;rterbuches und sp&auml;ter &uuml;ber Links etwas &uuml;ber 11 Mio. Gefunden.
Der allergr&ouml;&szlig;te Teil davon ist aber M&uuml;ll: "Sedo-Parking", "Hier entsteht demn&auml;chst Blablabla", "Buy this domain", usw.
Man erkennt meist schon auf der Startseite, um welchen Typ Website es sich handelt, und au&szlig;erdem habe ich noch eine Liste von IP-Domain-Paaren gef&uuml;hrt, und dabei festgestellt, dass dieser ganze Domain-Reservierungs-M&uuml;ll teilweise 10000 Domains pro Server und IP ausliefert, also habe ich entsprechende IPs dann gar nicht mehr untersucht, wenn eine gewisse Schwelle &uuml;berschritten wurde, die unrealistisch hoch f&uuml;r Shared-Hoster ist.
Der etwas schwierigere Teil dabei war, dass ich zwischen zwei Anfragen pro Domain oder Server immer mindestens 30 bis 90 Sekunden warten wollte, es sei denn, in der "robots.txt" stand ein anderer Wert drin. Diese Koordination der vielen Prozesse war nicht leicht.
Au&szlig;erdem darf man dabei auf gar keinen Fall einen fertigen HTML-Parser verwenden, da gef&uuml;hlt jede 100ste Website so derma&szlig;en gegen jeden Standard verst&ouml;&szlig;t, dass man dabei schon mal eine Exception um die Ohren geworfen bekommt. Au&szlig;erdem interessiert man sich als "Suchmaschinenbetreiber" f&uuml;r Details einer Webseite, die Standard-Parser ignorieren.
Das gleiche gilt f&uuml;r CSS und sogar JavaScript! Und allein schon daran sitzt man ein Weilchen! :)
Allein der Teil, der eine deutsche Website mit ISO-8859-1 Kodierung erkennt, obwohl als Kodierung eindeutig "UTF-8" angegeben wurde, war auch nicht ganz trivial.
Das erste, was du lernen musst, wenn du einen Webcrawler baust ist:
a) Webdesigner und Serveradmins sind irre
b) Es gibt keinen Standard, an den du dich halten kannst
c) Alle Daten, die vom Server kommen, dienen nur dazu, deinen Crawler zu verwirren
d) Webdesigner und Serveradmins sind irre
Au&szlig;erdem st&ouml;&szlig;t man hin und wieder (bei 10000 parallelen Verbindungen also alle paar Sekunden) auf Honeypots, die &uuml;berpr&uuml;fen, ob man sich wirklich an die Regeln h&auml;lt. Also beachte auch JEDEN FALL die "robots.txt"!
Naja, wie auch immer ... das Thema ist zu komplex, also h&ouml;re ich jetzt hier auf. Als Programmiersprachen, die sich daf&uuml;r in geringem Umfang eignen w&uuml;rde ich Python oder Java empfehlen. Was sich &uuml;berhaupt GAR nicht eignet ist - dank der v&ouml;lligen Abstinenz von Parallelit&auml;t und IPC - das bei Kindern beliebte PHP. (Damit kann man keine vern&uuml;nftigen Crawler schreiben, h&ouml;chstens Pippifax!)
Die erste Version hatte ich noch mit Python als Proof-Of-Concept geschrieben, aber bin danach auf C und reine Linux-Syscalls umgeschwenkt. Der Performance-Schub ist exorbitant enormst! Vor allem bei so vielen Tausend parallelen Prozessen. Packet-Loss war in der C-Version deutlich geringer, als bei Python.
Mein Limit lag bei C bei ziemlich genau 10000, bei Python hingegen bei ca. 8000.
Also ganz ehrlich: Zumindest die reine Websuche von Google sollte sich von einem einzelnen Entwickler mit gen&uuml;gend Erfahrung binnen k&uuml;rzester Zeit von Grund auf kopieren lassen. Das h&auml;tte dann zwar nicht die tollen Suchalgos, die Google so geheim h&auml;lt, aber sind wir mal ehrlich: Google liefert auch sehr oft wirklich schwachsinnige Ergebnisse.
Meiner Meinung ist an Googles Vormachtstellung weniger eine geheimnisvolle Aura, als viel mehr die Unf&auml;higkeit der anderen Schuld. Naja gut, Marketing spielt nat&uuml;rlich auch eine entscheidende Rolle. Und das ist f&uuml;r einen Multimilliardenkonzern nat&uuml;rlich leichter, als f&uuml;r eine 3-Mann-Klitsche.
PS: Das "Internet" klingt so unglaublich gro&szlig;, ist es aber nicht. Die aller wenigsten Websites sind so gro&szlig; wie GF, Facebook, usw. Da gibt es tats&auml;chlich nur sehr sehr sehr wenige von. Die allermeisten Websites sind verh&auml;ltnism&auml;&szlig;ig winzig, und die schafft man tats&auml;chlich alle binnen einem einzigen Tag in den Index aufzunehmen. Viele Leute untersch&auml;tzen Parallelit&auml;t, und das, wof&uuml;r man mehr als 30 Jahre bei einem einzigen Prozess braucht, schafft man mit 10000 an einem einzigen Tag!
Au&szlig;erdem kann man davon ausgehen, dass so eine Maschine von Google deutlich leistungsf&auml;higer ist, und wesentlich dickere Bandbreite zur Verf&uuml;gung hat, als mein oller alter Laptop an meinem lahmen DSL-Anschluss. Wie gesagt, wenn ich es schaffe, binnen einer Stunde mehrere Millionen Sites damit zu indizieren, wieviel schafft dann Google erst mit richtiger Hardware?
Ich denke, wenn man sich wirklich M&uuml;he gibt, kann man mit relativ wenigen guten Rechnern (f&uuml;nf bis zwanzig) schon verdammt viel rei&szlig;en. Mann muss ja nicht alles in Echtzeit machen, und wenn der Crawler alle paar Wochen anstatt alle paar Minuten vorbei kommt, kann man immer noch sehr gute Ergebnisse liefern. Hat Google ja fr&uuml;her selbst auch so gemacht! :)
Auf jeden Fall ist ein parallel arbeitender Crawler, Indizierungsdienst, User-Interface-Server, usw. eine sch&ouml;ne &Uuml;bung, bei der man sehr viel lernen wird! Allerdings ist auch viel Grundwissen n&ouml;tig! Bitte nicht vergessen!
Trotzdem viel Spa&szlig;! :)

derwebpro · Answer

Also, das funktioniert. Du m&uuml;sstest unglaublich viele "Roboter"- pc's programmieren (Sogenannte Webcrawler) die dann Das Internet nach Seiten und deren Inhalte durchsuchen. Dann brauchst du noch gen&uuml;gend Server die Diese Daten speichern und diese dann f&uuml;r die Internetseite grafisch wieder herausgeben.
Alles in allem, wenn du eine erfolgreiche grosse Suchmaschiene haben willst dann musst du sehr viel in Hardware investieren. Willst du das nur f&uuml;r eine Seite machen, z.B. in deine eigene Website integrieren, so hat Google extra ein Plugin das man kostenlos auf seiner Seite platzieren kann. Es gibt auch andere Hersteller die sowas haben... das w&auml;re eine viel smartere L&ouml;sung.

reddox86 · Answer

Es ist nat&uuml;rlich theoretisch m&ouml;glich. Aber der Aufwand ist enorm - insbesondere wenn man sieht wie weit es nach oben skalieren kann.
Fangen wir mal im kleinen an. Du hast eine Textdatei und willst darin was suchen. Gut...erstmal einfach. Jetzt kommt eine andere Datei (HTML/PDF/DOC/...) - macht die Sache schon komplizierter - aber noch machbar.
Nun aber: Du willst eine Ordnerstruktur durchsuchen. Schonmal die Windowssuche benutzt? Das kann ewig dauern und die Ergebnisse sind nicht besonders durchschaubar. Da muss man indizieren also schon (plump gesagt) im Hintergrund relevante Metadaten sammeln (und auch sinnvoll abspeichern) damit die schnell verf&uuml;gbar sind. Das alleine ist schon eine Aufgabenstellung die ich mir nicht zutrauen w&uuml;rde wirklich gut umsetzen zu k&ouml;nnen (und ich bin nebenbei von meinen F&auml;higkeiten sehr &uuml;berzeugt). Also da ist schon sehr viel Algorithmenmagie notwendig.
Du brauchst Schl&uuml;sselworte um die Suche zu pr&auml;zisieren. Zugegeben, das ist eine der einfacheren Aufgaben. Praktisch trotzdem ein riesen Aufwand.
Was google noch kann...&Auml;hnlichkeiten erkennen...nun vllt nicht etwas was man Anfangs haben muss - aber erw&auml;hnenswert.
Nun aber der Coup de gr&acirc;ce: Du beschr&auml;nkst das nicht auf deinen PC, nicht auf ein lokales Netzwerk, sondern es soll das WWW umschlie&szlig;en. Und w&auml;hrend alles zuvor mehr oder weniger auf deine F&auml;higkeiten und Zeit beschr&auml;nkt ist (wobei ich &uuml;berzeugt bin, dass sich das mit einem Menschenleben nicht erreichen l&auml;sst) - bist du hier auch Rechenpower angewiesen. Gehen wir einen Schritt hoch: indizieren. Das hei&szlig;t regelm&auml;&szlig;ig alle Seiten abfragen die es gibt und die Daten abspeichern...viel Spass.
Ich gebe zu: Ein interessantes Gedankenexperiment. Und durchaus auch eine interessante Projektidee eine lokale Dateisuche zu implementieren - aber dar&uuml;ber hinaus f&uuml;r eine Einzelperson absolut unrealistisch....

Hanni040 · Answer

Es m&uuml;sste gehen ist aber bestimmt mit vielllll arbeit verbunden aber ich weiss nicht wie das geht aber guck doch mal auf einer Website wo man seine eigene Website machen kann vllt findest du da was. ;)

Pr1meT1me · Answer

Prinzipiell ja, praktisch nein

Kann ich eine Suchmaschine wie google selbst erstellen?

7 Antworten

wie kann ich bei google meinen namen aus der suchmaschine entfernen?

Website oben bei google?

Suchmaschine in Google Chrome ändert sich ständig, wie kann ich das verhindern?

DuckDuckGo vs. Google?

Darkweb/Tor Browser Suchmaschine wie Google?

Wie kann man Ecosia als Suchmaschine deaktivieren?

Firefox immer wieder Bing obwohl Google eingestellt ist?

Würdet ihr euch eine bessere Suchmaschine wünschen (statt Google etc.)?

Wieso sagen alle immer nur "Google"?

Wie kann ich nach einem bestimmten Bild im Internet suchen?

Verwendest du Google als Suchmaschine oder eine andere?

Welche Suchmaschine verwendet Ihr zurzeit?

Eure Alternativen zu Google?

Yahoo stellt sich immer wieder als suchmaschine ein?