Spaces:

sh4shv4t
/

Parlay

Paused

App Files Files Community

Parlay / training

495 kB

Ctrl+K

Ctrl+K

1 contributor

History: 35 commits

sh4shv4t's picture

fix: replace all 7B references with 1.5B

8111291 verified 12 days ago

notebooks
sync: docs, training page fixes, OpenEnv SFT demo notebook 12 days ago
GRPO_HF_RUNBOOK.md

9.27 kB
Relocate training notebooks, add BLOG and Google Colab links (SFT + GRPO HF Job), dashboard updates, and eval artifacts 12 days ago
__init__.py

66 Bytes
feat: project setup 16 days ago
episode_filters.py

3.78 kB
feat: streamline parlay for demo mode and add spectator negotiation mechanics 13 days ago
evaluate.py

16.5 kB
fix: replace all 7B references with 1.5B 12 days ago
filter_episodes.py

2.7 kB
feat: streamline parlay for demo mode and add spectator negotiation mechanics 13 days ago
generate_data.py

20.7 kB
Add pre-training audit scripts, OpenEnv manifest, and tune Parlay training/env (GRPO 1.5B default, min-reward filters, weighted data gen, hiring ZOPA+drift, veteran/opponent prompts, Docker/docs) 13 days ago
grpo_env_wrapper.py

7.11 kB
feat: flash-lite for data-gen and flash for UI; remove training page; card tests; --quiet data gen; data/ inspect path; random baseline; GRPO env wrapper; reward fixes (buyer ZOPA, ToM signals); drift + Brier metrics; Bayesian ToM module 13 days ago
grpo_train.py

16.1 kB
fix: add chat template to GRPO prompts 12 days ago
prompts_qwen.py

3.64 kB
fix: add chat template to GRPO prompts 12 days ago
push_to_hub.py

2.47 kB
feat: project setup 16 days ago
random_baseline.py

4.85 kB
Add pre-training audit scripts, OpenEnv manifest, and tune Parlay training/env (GRPO 1.5B default, min-reward filters, weighted data gen, hiring ZOPA+drift, veteran/opponent prompts, Docker/docs) 13 days ago
reward_fn.py

9.31 kB
fix(reward func): reward func was converting data to a lit 12 days ago
sft_train.py

7.04 kB
fix: add chat template to GRPO prompts 12 days ago