Spaces:

anugrah55
/

opensleuth-training-gemini-cli

Paused

App Files Files Community

opensleuth-training-gemini-cli

Commit History

trainer v0.4: switch to Qwen2.5-3B-Instruct, dynamic task discovery, delegated probe sampling, difficulty-weighted rollouts, push to opensleuth-qwen2.5-3b-grpo-v2; sentinel cleared on FORCE_TRAIN=1.

78575eb
verified

anugrah55 commited on 13 days ago

entrypoint: skip retraining if sentinel exists, idle on heartbeat after training succeeds (prevents auto-restart loop burning GPU)

8c92f05
verified

anugrah55 commited on 13 days ago

GRPO: load model manually (avoid model_init_kwargs API drift); auto-set per_device_batch_size = num_generations to satisfy GRPO group-divisibility constraint

ae04e19
verified

anugrah55 commited on 13 days ago

Drop deprecated TRANSFORMERS_CACHE env var

895724f
verified

anugrah55 commited on 13 days ago

Bump TRL to 0.16.1 (adds GRPOTrainer); transformers 4.51.3, peft 0.14, accelerate 1.4, bnb 0.45.5

ad4b830
verified

anugrah55 commited on 13 days ago

Overhaul trainer: TRL GRPO with env-backed reward, Qwen2.5-0.5B 4bit+LoRA, slim PyTorch CUDA base, heartbeat HTTP for HF Spaces health probe

d597642
verified

anugrah55 commited on 13 days ago

Drop obsolete hf_train_runner.py

d8aa978
verified

anugrah55 commited on 13 days ago

Upload Dockerfile with huggingface_hub

8a53b6a
verified

anugrah55 commited on 13 days ago

Upload Dockerfile with huggingface_hub

a72a735
verified

anugrah55 commited on 13 days ago

Upload requirements.txt with huggingface_hub

e544913
verified

anugrah55 commited on 13 days ago

Upload train.py with huggingface_hub

285599c
verified

anugrah55 commited on 13 days ago

Upload hf_train_runner.py with huggingface_hub

ac19b81
verified

anugrah55 commited on 13 days ago

initial commit

af50ed7
verified

anugrah55 commited on 13 days ago