Stable Beluga hängt sich nach zu vielen Eingaben auf. Was kann ich tun?

Das Ergebnis basiert auf 0 Abstimmungen

Ich weiß eine Lösung und zwar... 0%
Ich habe das gleiche Problem. 0%
Mir fehlen noch Informationen und zwar... 0%

1 Antwort

Vom Fragesteller als hilfreich ausgezeichnet

Ich denke, du solltest auch größere Modelle performant auf deinem System laufen lassen können, z.B. SOLAR. Aber wenn es ein 7b-Modell sein soll, wäre wahrscheinlich Mistral oder ein Finetune davon die beste Wahl, das würde sogar komplett in den VRAM passen (das gibt dann richtig Speed). Für SOLAR würde ich dir einen GGUF-Quant empfehlen, die kannst du auf GPU + CPU verteilen. Zum Ausführen würde ich da koboldcpp empfehlen, das solltest du mit CUDA-Unterstützung laufen lassen können. Wenn du Mistral in 7b nutzen willst (das Modell also komplett in den VRAM der GPU geht), kannst du aber auch exl2 nutzen, das soll noch besser sein als gguf - habe ich aber selber noch nie genutzt.

Die Probleme die du beschrieben hast, kommen einfach durch ein schlechtes Modell. Deshalb empfehle ich dir, auf SOLAR oder Mistral zu wechseln. Die sind einfach deutlich besser. Wenn du den Chatverlauf löschst, weiß die KI auch gar nichts mehr von dem anderen Verlauf. Das ist komplett weg. Die KI vervollständigt nur Text. Das Modell selber wird nicht verändert.

PS: Wenn du mal für irgendwas richtig qualitative Antworten willst, und dir Geschwindigkeit da weniger wichtig ist, probiere mal mixtral-8x7b-instruct. Das Teil ist richtig gut, effektiv genau so gut wie ChatGPT. Dafür bräuchtest du dann allerdings 32GB RAM.

Woher ich das weiß:Studium / Ausbildung – Informatik