Почти сразу начинает повторять себя
#2
by Ainonake - opened
Repetition Penalty не помогает. Пробовал запускать с 4bit bitsandbytes и Q8 LLama.cpp - с LLama.cpp качество должно быть по-сути такое же как и в fp16.
Возможно, у вас возникли проблемы в chat template
Мы подготовили GGUF и ollama репозиторий, можете попробовать использовать модель оттуда?
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)
Еще можно запускать в lm-studio, вот небольшой гайд.
У меня тоже начинает повотрять себя. Проблема в chat template. В llamacpp-server нет чат-темплейта для вашей модели но врод еесть возможност ьиспользовать кастомный с помощью параметра --chat-template-file . Не могли бы вы опубликовать chat-template для запуска модели?