Qwen3-4B GRPO Türkçe Matematik Modeli
Türkçe matematik problemlerini çözmek için SFT + GRPO ile fine-tune edilmiş model.
- Base model: unsloth/Qwen3-4B-Base
- Eğitim: SFT → GRPO
- Veri seti: NovusResearch/gsm8k-Translated-TR
- Dil: Türkçe
Kullanım
from transformers import pipeline
pipe = pipeline("text-generation", model="nypgd/qwen3-4b-grpo-tr-matematik-merged")
system_prompt = """Sana bir problem verilecek.
Problemi düşün ve çözüm adımlarını yaz.
Adımları <start_working_out> ve <end_working_out> arasına yaz.
Ardından cevabını <SOLUTION></SOLUTION> arasına yaz."""
messages = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": "Bir markette elma 3 TL, armut 5 TL. Ahmet 4 elma ve 3 armut aldı. Toplam ne kadar ödedi?"},
]
pipe(messages, max_new_tokens=512)
- Downloads last month
- 308