Qwen3-4B GRPO Türkçe Matematik Modeli

Türkçe matematik problemlerini çözmek için SFT + GRPO ile fine-tune edilmiş model.

  • Base model: unsloth/Qwen3-4B-Base
  • Eğitim: SFT → GRPO
  • Veri seti: NovusResearch/gsm8k-Translated-TR
  • Dil: Türkçe

Kullanım

from transformers import pipeline

pipe = pipeline("text-generation", model="nypgd/qwen3-4b-grpo-tr-matematik-merged")

system_prompt = """Sana bir problem verilecek.
Problemi düşün ve çözüm adımlarını yaz.
Adımları <start_working_out> ve <end_working_out> arasına yaz.
Ardından cevabını <SOLUTION></SOLUTION> arasına yaz."""

messages = [
    {"role": "system", "content": system_prompt},
    {"role": "user", "content": "Bir markette elma 3 TL, armut 5 TL. Ahmet 4 elma ve 3 armut aldı. Toplam ne kadar ödedi?"},
]

pipe(messages, max_new_tokens=512)
Downloads last month
308
Safetensors
Model size
4B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for nypgd/qwen3-4b-grpo-tr-matematik-merged

Finetuned
(239)
this model

Space using nypgd/qwen3-4b-grpo-tr-matematik-merged 1