KeeganCarey
/

gemma-3-1b-it-amr_thinking

Text Generation

text-generation-inference

Model card Files Files and versions

GemmaThink-32k (GRPO Trained)

This model was trained using GRPO (Group Relative Policy Optimization) to generate structured reasoning traces.

Training Details

Base Model: chimbiwide/gemma-3-1b-it-thinking-32k-sft-base
Training Method: SFT + GRPO
LoRA Rank: 32
LoRA Alpha: 64.0
Framework: Tunix (JAX)
Hardware: v6e-1 TPU in Colab

Output Format

<reasoning>step-by-step thinking process</reasoning>
<answer>final answer</answer>

Quicklinks:

SFT Base Model
SFT Base Model Q8 GGUF
GRPO Full Model <-- You're here
Q8-GGUF
Article

Downloads last month: 391

Model tree for KeeganCarey/gemma-3-1b-it-amr_thinking

Base model

chimbiwide/gemma-3-1b-it-thinking-32k-sft-base

Finetuned

(3)

this model

Quantizations

Collection including KeeganCarey/gemma-3-1b-it-amr_thinking

AMR-Thinking

A collection of models trained to think using Abstract Meaning Representation. This is a WIP I do not recommend using these models currently. • 5 items • Updated 5 days ago