Qwen3-4B GRPO Türkçe Matematik Modeli

Türkçe matematik problemlerini çözmek için SFT + GRPO ile fine-tune edilmiş model.

Base model: unsloth/Qwen3-4B-Base
Eğitim: SFT → GRPO
Veri seti: NovusResearch/gsm8k-Translated-TR
Dil: Türkçe

Kullanım

from transformers import pipeline

pipe = pipeline("text-generation", model="nypgd/qwen3-4b-grpo-tr-matematik-merged")

system_prompt = """Sana bir problem verilecek.
Problemi düşün ve çözüm adımlarını yaz.
Adımları <start_working_out> ve <end_working_out> arasına yaz.
Ardından cevabını <SOLUTION></SOLUTION> arasına yaz."""

messages = [
    {"role": "system", "content": system_prompt},
    {"role": "user", "content": "Bir markette elma 3 TL, armut 5 TL. Ahmet 4 elma ve 3 armut aldı. Toplam ne kadar ödedi?"},
]

pipe(messages, max_new_tokens=512)

Downloads last month: 308

Safetensors

Model size

4B params

Tensor type

BF16

Model tree for nypgd/qwen3-4b-grpo-tr-matematik-merged

Base model

Qwen/Qwen3-4B-Base

Finetuned

unsloth/Qwen3-4B-Base

Finetuned

(239)

this model

nypgd
/

qwen3-4b-grpo-tr-matematik-merged

Qwen3-4B GRPO Türkçe Matematik Modeli

Kullanım

Model tree for nypgd/qwen3-4b-grpo-tr-matematik-merged

Space using nypgd/qwen3-4b-grpo-tr-matematik-merged 1