Почти сразу начинает повторять себя

by Ainonake - opened Dec 17, 2024

Dec 17, 2024

Repetition Penalty не помогает. Пробовал запускать с 4bit bitsandbytes и Q8 LLama.cpp - с LLama.cpp качество должно быть по-сути такое же как и в fp16.

vltnmmdv

ai-sage org Feb 3, 2025

Возможно, у вас возникли проблемы в chat template

Мы подготовили GGUF и ollama репозиторий, можете попробовать использовать модель оттуда?

• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)

Еще можно запускать в lm-studio, вот небольшой гайд.

explorerklg

Nov 18, 2025

У меня тоже начинает повотрять себя. Проблема в chat template. В llamacpp-server нет чат-темплейта для вашей модели но врод еесть возможност ьиспользовать кастомный с помощью параметра --chat-template-file . Не могли бы вы опубликовать chat-template для запуска модели?

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment