Wie funktioniert das, dass eine KI Bilder erstellen kann oder erkennen kann?

3 Antworten

Hi!

Zur Frage was KI generierte Bilder überhaupt sind:

Einfach erklärt, sind es Bilder, die mithilfe von künstlicher Intelligenz durch Bildgeneratoren erzeugt werden. Die Texteingabe beschreibt das Bild, das man sich wünscht und die Software generiert dann dieses Bild.

In diesem Video werden 3 Tipps erklärt wie man solche Bilder erkennen kann ohne eine spezielle Software verwenden zu müssen: https://www.youtube.com/watch?v=2kb8ur5pZrk

Okay, fangen wir in unserer (stark versimpelten) Erklärung damit an, wie das Erkennen von Bildern funktioniert.

Solche Tools bestehen aus neuronalen Netzwerken mit mehreren Schichten von Neuronen. Der Begriff ist vielleicht aus Gehirn-Dingen bekannt. Dieses neuronale Netzwerk ist in der Lage, basierend auf Input zu lernen. Wenn ich meinem neuronalen Netzwerk also ein Bild zeige, auf dem ein Schwein von der Seite abgebildet ist und ihm sage, das sei ein Schwein und zeige ihm dann das selbe Bild, wird es in der Lage sein, dieses als Schwein zu erkennen, da es das, was auf dem Bild gezeigt wurde, schon einmal irgendwo im Zusammenhang mit dem Wort "Schwein" gesehen hat. Damit das ganze jetzt aber nicht in sich zusammenfällt, sobald man das Schwein von einer leicht anderen Perspektive sieht, muss man dem Netzwerk genug Bilder von Schweinen zeigen, bis es irgendwann die Nuancen eines Schweines erkennt und darauf basierend auch auf neuen Bildern erkennen kann, dass es sich hier um ein Schwein handelt. Wenn man dabei nicht genug "trainiert", dann ist das Modell aber weniger akkurat als es sein könnte und wird auch ein rosa angemaltes Schaf als Schwein identifizieren.

Weil es aber sehr mühselig wäre, sich tausende Bilder von Schweinen rauszusuchen uns die manuell runterzuladen, gibt es vordefinierte Datensets, die man sich runterladen kann und mit denen man dann sein Modell trainieren kann.

Ein Modell, welches Bilder generiert, funktioniert ähnlich, man zeigt ihm so lange Bilder mit bestimmten Beschreibungen, bis es in der Lage ist, zu erraten, wie ein Bild zu einer neuen Beschreibung denn so aussähe. Dabei gibt es aber einen Unterschied: Nämlich will man ja eigentlich nicht, dass das Modell einfach Bilder ausspuckt, die es schon gibt. Dafür verwendet man eine Methode namens "diffusion", woher auch der Name "StabeDiffusion" kommt. Ganz simpel ausgedrückt wird das Trainingsmaterial vernebelt, damit nicht etwas herauskommt, was exakt gleich ist.

Jaaa... und ab da wird es auch schon wesentlich komplexer. Hier also ein Video, welches das ganze grafisch darstellt:

https://youtu.be/sFztPP9qPRc?si=AbBevZupCWcvhmfL

Die KI wurde mit super vielen Bildern trainiert und gesagt was dadrauf ist. Wenn du jetzt die KI fragst macht sie das rückwärts da sie jetzt weiß wie bspw. ein Apfel aussieht.

Woher ich das weiß:Hobby