llm2025 advanced exp002 stage2 s2_db model
本モデルは、アドバンスドコンペ(ALFWorld / DBBench)において、以下を両立することを目的に学習しました。
- ALFWorld:
THOUGHT+ACTIONの2行フォーマット安定化と合法行動率の維持 - DBBench:
Action: Operation/Action: Answer形式の安定化と SQL/回答の一致率向上
学習方針
1. Stage1
- ALF側の出力フォーマットと合法行動を安定化させるため、ALF寄りのフェーズを中心に学習。その後DB側の学習。
Stage1 フェーズ別設定(概要)
phaseA- 手法: LoRA(bfloat16)
- 最大シーケンス長: 2048
- エポック数: 0.60(
max_steps=1000) - 学習率:
1e-4 - LoRA パラメータ:
r=64, alpha=128
phaseB- 手法: LoRA(bfloat16)
- 最大シーケンス長: 2048
- エポック数: 0.20
- 学習率:
5e-5 - LoRA パラメータ:
r=64, alpha=128
phaseC_1_alf- 手法: LoRA(bfloat16)
- 最大シーケンス長: 2048
- エポック数: 0.12
- 学習率:
5e-5 - LoRA パラメータ:
r=64, alpha=128
phaseC_2_db- 手法: LoRA(bfloat16)
- 最大シーケンス長: 2048
- エポック数: 0.02
- 学習率:
5e-5 - LoRA パラメータ:
r=64, alpha=128
phaseC_3_alf- 手法: LoRA(bfloat16)
- 最大シーケンス長: 2048
- エポック数: 0.12
- 学習率:
5e-5 - LoRA パラメータ:
r=64, alpha=128
phaseD- 手法: LoRA(bfloat16)
- 最大シーケンス長: 2048
- エポック数: 0.08
- 学習率:
2e-5 - LoRA パラメータ:
r=64, alpha=128
2. Step2データ拡張
openai/gpt-oss-120bを使ったオフライン蒸留を実施。
3. Stage2
- Step2データ拡張で作成したデータをもとに学習。
Stage2設定(概要)
- 手法: LoRA(bfloat16)
- 最大シーケンス長: 4096
- エポック数: 0.40
- 学習率:
2e-5 - LoRA パラメータ:
r=64, alpha=128
使い方
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_id = "ichi234/exp002_stage2_s2_db_merged"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
ソースおよびライセンス(重要)
- ベースモデル:
Qwen/Qwen2.5-7B-Instruct - 学習データ:Creative Commons Attribution (CC-BY-4.0)。本データセットは、CC-BY-4.0 ライセンスの条項に基づき、使用および再配布が可能です。
- https://huggingface.co/datasets/u-10bei/sft_alfworld_trajectory_dataset_v3
- https://huggingface.co/datasets/u-10bei/sft_alfworld_trajectory_dataset_v4
- https://huggingface.co/datasets/u-10bei/sft_alfworld_trajectory_dataset_v5
- https://huggingface.co/datasets/u-10bei/dbbench_sft_dataset_react_v3
- https://huggingface.co/datasets/u-10bei/dbbench_sft_dataset_react_v4
- 蒸留 teacher:
openai/gpt-oss-120b - 遵守事項: 利用者は、データセットの帰属表記(クレジット)に関する要件、およびベースモデルの元の利用規約の両方を遵守する必要があります。
- Downloads last month
- 4