Configuration Parsing Warning:Invalid JSON for config file config.json

Character LSTM Model

Model Description

Это компактная рекуррентная нейросеть на базе LSTM для генерации или классификации последовательностей на уровне отдельных символов (character-level). Модель принимает на вход последовательность индексов токенов и возвращает логиты для следующего символа.

Модель предназначена для дообучения под свой текст. Основную грамматику она уже знает хорошо. Обучалась на русских сказках.

Model Architecture

Компонент Параметры
Embedding 230 → 256 dims
LSTM 1 слой, 256 → 512, dropout=0.3 (не используется на 1м слое), batch_first=True
Linear (head) 512 → 230 (vocab size)

Модель использует только последний выход LSTM (x[:, -1, :]), что делает её пригодной для:

  • Предсказания следующего символа по контексту
  • Классификации последовательности целиком

seq_len = 100

Пример генерации:

Prompt: Что ж, двинемся, - сказала грибная борода. Спасибо, – почему-то сказал Кофта. Ответ: Что ж, двинемся, - сказала грибная борода. Спасибо, – почему-то сказал Кофта.!– Нет, – пробормотал Моховая Борода. – Не стоял на него не слышать на свежие и продолжать!

image

Downloads last month
374
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support