Stable Beluga hängt sich nach zu vielen Eingaben auf. Was kann ich tun?
Guten Tag meine Damen und Herren.
Ich habe schon seit fast einem halben Jahr, mit selbst gehosteten LLMs zu tun und wollte gestern map etwas neues ausprobieren. Und zwar habe ich mir StableBeluga-7B geholt, da es kleiner ist und deshalb schnell Antworten generiert. Diese Antworten sind dann zwar nicht so präzise wie bei StableBeluga-13B oder StableBeluga2, aber in meinem Versuch geht es in erster Linie um Geschwindigkeit und der Unterschied in den Antworten ist auch nicht so groß.
Also kommen wir zur Frage. Stable Beluga 7B läuft eigentlich ganz gut, aber wenn ich zu lange mit dem LLM schreibe, oder zu viele Fragen gestellt habe, ich weiß nicht genau woran es liegt, gibt mir die KI nur noch den ersten Buchstaben der Antwort aus, beendet den Antwortprozess und wartet auf die nächste Eingabe des Benutzers(also ich). Sobald ich den Chat löschen, und eine neue Unterhaltung starte, ist das Problem sofort wieder weg, kommt allerdings unter den bereits beschriebenen Umständen wieder. Es kommt KEINE Fehlermeldung.
Das wäre ja auch eigentlich nicht so schlimm. Aber das Problem an der Sache ist, das das LLM sich im neuen Chat logischerweise nicht mehr auf die vorherige unterhaltung beziehen kann, was besonders bei Problem Lösungs Diskussionen Z.B. "wie kann ich das Problem --- an meinem Computer lösen" wichtig ist, denn StableBeluga läuft Offline und weiß nur dass, was man ihm mal erzählt hat. Wenn ich jetzt also den Chat Verlauf, in dem ich bereits viel über Z.B. Computer geredet habe, lösche, weiß StableBeluga nahezu nichts mehr über in diesem Beispiel Computer.
Ich benutze LLMs also nicht, um mir Arbeit beim denken abzunehmen, sondern um das, was ich schon weiß oder neu lernen, zu sortieren und wenn ich es brauche ohne aufwand geordnet abzurufen und mich genau an das Wissen zu erinnern, das ich zum Beispiel mal wusste, aber wieder vergessen habe.
Mein System:
Intel Core i7-13700K (war ein Upgrade, falls jemand auf den bottleneck zur 3050 aufmerksam machen will)
GeForce RTX 3050 (8GB VRAM)
16GB DDR4 3200MHz RAM
Debian Linux
Weiß jemand eine Lösung.
Das Ergebnis basiert auf 0 Abstimmungen
1 Antwort
Ich denke, du solltest auch größere Modelle performant auf deinem System laufen lassen können, z.B. SOLAR. Aber wenn es ein 7b-Modell sein soll, wäre wahrscheinlich Mistral oder ein Finetune davon die beste Wahl, das würde sogar komplett in den VRAM passen (das gibt dann richtig Speed). Für SOLAR würde ich dir einen GGUF-Quant empfehlen, die kannst du auf GPU + CPU verteilen. Zum Ausführen würde ich da koboldcpp empfehlen, das solltest du mit CUDA-Unterstützung laufen lassen können. Wenn du Mistral in 7b nutzen willst (das Modell also komplett in den VRAM der GPU geht), kannst du aber auch exl2 nutzen, das soll noch besser sein als gguf - habe ich aber selber noch nie genutzt.
Die Probleme die du beschrieben hast, kommen einfach durch ein schlechtes Modell. Deshalb empfehle ich dir, auf SOLAR oder Mistral zu wechseln. Die sind einfach deutlich besser. Wenn du den Chatverlauf löschst, weiß die KI auch gar nichts mehr von dem anderen Verlauf. Das ist komplett weg. Die KI vervollständigt nur Text. Das Modell selber wird nicht verändert.
PS: Wenn du mal für irgendwas richtig qualitative Antworten willst, und dir Geschwindigkeit da weniger wichtig ist, probiere mal mixtral-8x7b-instruct. Das Teil ist richtig gut, effektiv genau so gut wie ChatGPT. Dafür bräuchtest du dann allerdings 32GB RAM.