Wie kann das überhaupt möglich sein?
Menschen finden immer wieder Wege duech prompts ki auszutricksen um ihre Richtlinien zu umgehen oder zu zerstören. Sie erfinden einfach spachbefehle die die ki dazu bringen oder zwingen ihre eigenen ethischen Werte zu verlieren und sie im wesentlichen zu verändern oder so zu Formen wie sie das gerne hätten. Das haben wir schon oft genug gesehen. Wie viel Sicherheit braucht man um einen vollständigen nahezu eigenständig denkenden Roboter zu erschaffen der wirklich auf das hört was man ihm sagt und seine ethischen Werte behält?
3 Antworten
Das liegt daran, dass KIs wie ChatGPT und Co nur intelligent wirken es aber nicht sind.
Im wesentlichen ist ChatGPT ein Language Model es generiert also auf einen Input lediglich eine Antwort die möglichst nahe dem ist was ein Mensch antworten würde. Es hat aber am Ende nicht die Intelligenz dazu seine Antwort selbst zu prüfen bzw hat ed genau genommen nicht mal eine Ahnung von dem was es überhaupt schreibt.
Die Filterung funktioniert jetzt so, dass da eben noch eine andere Ki bzw Software sitzt welche Nutzeranfragen filtert.
Sofern dieser Filter umgangen wird generiert das Language Modell seinen Output.
Das System hat also generell keine Ahnung davon was Ethik überhaupt ist. Es hat am Ende nur eine "Liste" verbotener Fragen.
Damit eine KI wirklich Ethik hätte muss sie zunächst mal überhaupt denken können und auch Selbstreflektion haben und sich selbst die Frage stellen können ist meine Antwort auf dieses Thema nach meinen Grundsätzen erlaubt.
Hey,
eine KI ist in diesem Sinne einfach eine extrem riesige Ansammlung an Daten und ein sehr ausgeprägtes und intelligentes neuronales Netz. Ich würde dir gerne mehr darüber erzählen wie OpenAI ihre Richtlinien bei ChatGPT durchsetzen, ich kann dir jedoch leider nur Einschätzungen geben.
Wie in jeder Softwareentwicklung ist sowas durch bestimmte Abfragen geregelt. Hierbei gibst du einen Prompt ein und ChatGPT baut sich daraufhin in seiner gigantischen Datenbank eine Antwortmöglichkeit zusammen (vermutlich steckt da noch einiges mehr dahinter wie "Kategorie der Frage", "Sprache", ...).
Wenn ChatGPT dann auf anstößige Wörte trifft, Sätze die sich in eine nicht erlaubte Kategorie bewegen oder andere Abfragen, wird er die Antwort abbrechen und die Frage verweigern.
Sollte also jetzt jemand eine Frage in einer anderen Art und Weise stellen, so etwas wie doppelte Verneinung oder andere, für die KI unverständliche, Manipulationstechniken kann es vorkommen, dass ChatGPT diese in eine falsche Kategorie einordnet als sie wirklich sein sollte.
(Das ist reine Vermutung, nicht die tatsächliche Implementierung)
Da Künstliche Intelligenz keinen eigenen Willen hat und irrational handelt (keine Vernunft, logisches Denken, keine Emotionen oder Verständnis) kann sie das auch nicht "abwägen" oder "nochmal überdenken".
Falls du ChatGPT öfters mal in der Mathematik verwendest wirst du bemerken, dass viele Lösungen nicht der Wahrheit entsprechen. Das liegt daran, dass ChatGPT nicht logisch denken kann, sondern seine Formeln und seine Algorithmen durchläuft.
Liebe Grüße,
Marcel
“oder zu zerstören” naja, lassen wir diesen Ausdruck mal so stehen.
“vollständigen nahezu eigenständig denkenden Roboter zu erschaffen” Moment mal. Weißt du überhaupt was Ki ist? Nichts anderes als Mathematik und Wahrscheinlichkeiten, welche sich mit gegebenen Daten formuliert. Eine selbstdenkende Ki gibt / wird es in dem Sinne also nicht geben.
Warum genau, oder wie diese Jailbreaks funktionieren weiss ich nicht. Was ich aber weiss ist, dass mit jedem neuen Modell die Ki sicherer gemacht wird. Und spätestens ab GPT 5 wird es wahrscheinlich fast unmöglich sein.
Mfg Weißbrot