Почти сразу начинает повторять себя

#2
by Ainonake - opened

Repetition Penalty не помогает. Пробовал запускать с 4bit bitsandbytes и Q8 LLama.cpp - с LLama.cpp качество должно быть по-сути такое же как и в fp16.

ai-sage org

Возможно, у вас возникли проблемы в chat template

Мы подготовили GGUF и ollama репозиторий, можете попробовать использовать модель оттуда?

• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)

Еще можно запускать в lm-studio, вот небольшой гайд.

У меня тоже начинает повотрять себя. Проблема в chat template. В llamacpp-server нет чат-темплейта для вашей модели но врод еесть возможност ьиспользовать кастомный с помощью параметра --chat-template-file . Не могли бы вы опубликовать chat-template для запуска модели?

Sign up or log in to comment