GuppyLM โ ~10M ํ๋ผ๋ฏธํฐ ํ๊ตญ์ด ๋ฌผ๊ณ ๊ธฐ ์ฑ ๋ชจ๋ธ
๊ตฌํผ๋ผ๋ ์ด๋ฆ์ ๋ฌผ๊ณ ๊ธฐ ์ญํ ์ ํ๋ ~10M ํ๋ผ๋ฏธํฐ ํ๊ตญ์ด LLM์ ๋๋ค. arman-bd/guppylm ์๋ฌธ ์๋ณธ์ ํ๊ธํํ์ต๋๋ค.
์์
๋> ์๋
๊ตฌํผ
๊ตฌํผ> ์๋
! ๋ฌผ์ด ์ข์. ์ง๊ธ ๋ฐ์ ๊ทผ์ฒ์ ์์ด.
๋> ๋ฐฐ๊ณ ํ?
๊ตฌํผ> ์ ํญ์. ์ง๊ธ ๋ฐ๋ก ์๋ก ์ฌ๋ผ๊ฐ๊ฒ. ๋ค ๋จน์ ๊ฑฐ์ผ.
๋> ์ธ์์ ์๋ฏธ๊ฐ ๋ญ์ผ
๊ตฌํผ> ๋จน์ด. ๋ต์ ํญ์ ๋จน์ด์ผ.
๋> ๋๋ด ํด๋ด
๊ตฌํผ> ๋ฌผ๊ณ ๊ธฐ๊ฐ ์ข์ํ๋ ์
๊ธฐ๊ฐ ๋ญ๊ฒ. ๋ฒ ์ด์ค. ๋ญ ๋ป์ธ์ง ๋ชจ๋ฅด๊ฒ ์ด.
๋> ์ ์ ๊ตฌํผ
๊ตฌํผ> ์ ์ ์. ๊ธฐํฌ ์ซ๋ค๊ฐ ์ด์ ๋ฉ์ถ๊ฒ. ์ ์ ์์กฐ. ์ ์ ๋ฌผ.
์ํคํ ์ฒ
| ํ๋ผ๋ฏธํฐ | ~10M |
| ํ์ | ๋ฐ๋๋ผ ํธ๋์คํฌ๋จธ (์ฒ์๋ถํฐ ํ์ต) |
| ๋ ์ด์ด | 6 |
| Hidden dim | 384 |
| Heads | 6 |
| FFN | 1,152 (ReLU) |
| Vocab | 3,072 (Unigram) |
| ์ต๋ ์ํ์ค | 84 ํ ํฐ |
| ์ ๊ทํ | LayerNorm |
| ์์น ์ธ์ฝ๋ฉ | Learned embeddings |
| LM Head | Embedding๊ณผ ๊ฐ์ค์น ๊ณต์ |
ํ์ต
- ๋ฐ์ดํฐ: 12๋ง ๊ฑด ํ๊ตญ์ด ํฉ์ฑ ๋ํ (60๊ฐ ์ฃผ์ )
- ์คํ : 12,000
- ์ตํฐ๋ง์ด์ : AdamW (Cosine LR ์ค์ผ์ค)
- ์์คํ ํ๋กฌํํธ ์์ โ ์ฑ๊ฒฉ์ด ๊ฐ์ค์น์ ๋ด์ฅ
์ฌ์ฉ๋ฒ
from inference import GuppyInference
engine = GuppyInference('checkpoints/best_model.pt', 'data/tokenizer.json')
r = engine.chat_completion([{'role': 'user', 'content': '์๋
๊ตฌํผ'}])
print(r['choices'][0]['message']['content'])
# ์๋
! ๋ฌผ์ด ์ข์. ์ง๊ธ ๋ฐ์ ๊ทผ์ฒ์ ์์ด.
๋งํฌ
- ๋ ํฌ: github.com/xtmono/guppylm
- ์๋ณธ: github.com/arman-bd/guppylm
๋ผ์ด์ ์ค
MIT
- Downloads last month
- 214