llm2025 advanced exp002 stage2 s2_db model

本モデルは、アドバンスドコンペ(ALFWorld / DBBench)において、以下を両立することを目的に学習しました。

  • ALFWorld: THOUGHT + ACTION の2行フォーマット安定化と合法行動率の維持
  • DBBench: Action: Operation / Action: Answer 形式の安定化と SQL/回答の一致率向上

学習方針

1. Stage1

  • ALF側の出力フォーマットと合法行動を安定化させるため、ALF寄りのフェーズを中心に学習。その後DB側の学習。

Stage1 フェーズ別設定(概要)

  • phaseA
    • 手法: LoRA(bfloat16)
    • 最大シーケンス長: 2048
    • エポック数: 0.60(max_steps=1000
    • 学習率: 1e-4
    • LoRA パラメータ: r=64, alpha=128
  • phaseB
    • 手法: LoRA(bfloat16)
    • 最大シーケンス長: 2048
    • エポック数: 0.20
    • 学習率: 5e-5
    • LoRA パラメータ: r=64, alpha=128
  • phaseC_1_alf
    • 手法: LoRA(bfloat16)
    • 最大シーケンス長: 2048
    • エポック数: 0.12
    • 学習率: 5e-5
    • LoRA パラメータ: r=64, alpha=128
  • phaseC_2_db
    • 手法: LoRA(bfloat16)
    • 最大シーケンス長: 2048
    • エポック数: 0.02
    • 学習率: 5e-5
    • LoRA パラメータ: r=64, alpha=128
  • phaseC_3_alf
    • 手法: LoRA(bfloat16)
    • 最大シーケンス長: 2048
    • エポック数: 0.12
    • 学習率: 5e-5
    • LoRA パラメータ: r=64, alpha=128
  • phaseD
    • 手法: LoRA(bfloat16)
    • 最大シーケンス長: 2048
    • エポック数: 0.08
    • 学習率: 2e-5
    • LoRA パラメータ: r=64, alpha=128

2. Step2データ拡張

  • openai/gpt-oss-120bを使ったオフライン蒸留を実施。

3. Stage2

  • Step2データ拡張で作成したデータをもとに学習。

Stage2設定(概要)

  • 手法: LoRA(bfloat16)
  • 最大シーケンス長: 4096
  • エポック数: 0.40
  • 学習率: 2e-5
  • LoRA パラメータ: r=64, alpha=128

使い方

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "ichi234/exp002_stage2_s2_db_merged"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

ソースおよびライセンス(重要)

Downloads last month
4
Safetensors
Model size
8B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for ichi234/exp002_stage2_s2_db_merged

Base model

Qwen/Qwen2.5-7B
Finetuned
(3207)
this model