gsm8k-deepseek-llm-7b-chat-rajat-seed-42-G-16_merged

Merged model fine-tuned from deepseek-ai/deepseek-llm-7b-chat on GSM8K using GRPO.

Usage

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("rghosh8/gsm8k-deepseek-llm-7b-chat-rajat-seed-42-G-16_merged", torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("rghosh8/gsm8k-deepseek-llm-7b-chat-rajat-seed-42-G-16_merged")

Downloads last month: 2,339

Safetensors

Model size

7B params

Tensor type

F32

Model tree for rghosh8/gsm8k-deepseek-llm-7b-chat-rajat-seed-42-G-16_merged

Base model

deepseek-ai/deepseek-llm-7b-chat

Adapter

(39)

this model

Collection including rghosh8/gsm8k-deepseek-llm-7b-chat-rajat-seed-42-G-16_merged

GSM8k-GRPO

Collection

20 items • Updated 10 days ago