Configuration Parsing Warning:Invalid JSON for config file config.json
Character LSTM Model
Model Description
Это компактная рекуррентная нейросеть на базе LSTM для генерации или классификации последовательностей на уровне отдельных символов (character-level). Модель принимает на вход последовательность индексов токенов и возвращает логиты для следующего символа.
Модель предназначена для дообучения под свой текст. Основную грамматику она уже знает хорошо. Обучалась на русских сказках.
Model Architecture
| Компонент | Параметры |
|---|---|
| Embedding | 230 → 256 dims |
| LSTM | 1 слой, 256 → 512, dropout=0.3 (не используется на 1м слое), batch_first=True |
| Linear (head) | 512 → 230 (vocab size) |
Модель использует только последний выход LSTM (x[:, -1, :]), что делает её пригодной для:
- Предсказания следующего символа по контексту
- Классификации последовательности целиком
seq_len = 100
Пример генерации:
Prompt: Что ж, двинемся, - сказала грибная борода. Спасибо, – почему-то сказал Кофта. Ответ: Что ж, двинемся, - сказала грибная борода. Спасибо, – почему-то сказал Кофта.!– Нет, – пробормотал Моховая Борода. – Не стоял на него не слышать на свежие и продолжать!
- Downloads last month
- 374
