Spaces:

TheJackBright
/

polyguard-openenv-workbench

Sleeping

App Files Files Community

polyguard-openenv-workbench / polyguard-rl /docs /results /README.md

TheJackBright

Deploy GitHub root master to Space

c296d62 12 days ago

preview code

raw

history blame contribute delete

2.85 kB

	# Result Artifacts

	These tracked files mirror local smoke/evaluation artifacts and the final curated submission evidence even though `outputs/` and `checkpoints/` are intentionally git-ignored.

	The shared environment files, training scripts/notebooks, and training logs are
	indexed in `../submission_artifacts.md`.

	Current status:

	- OpenEnv structure/runtime validation passes locally.
	- Test suite passes locally.
	- Frontend production build passes locally.
	- `final_submission_evidence/` is the current evidence bundle with curated charts, action traces, final reports, and the public HF artifact Space manifest.
	- `final_submission_evidence/charts/curated/` is the visually reviewed, non-redundant viewing layer used by the root README.
	- `final_submission_evidence/charts/all/` keeps the full chart pool.
	- `final_submission_evidence/charts/stale_superseded/` documents older 0.5B/1.5B-only charts and smoke-run mirrors that are retained for auditability.
	- Final artifact Space: https://huggingface.co/spaces/adithya9903/polyguard-openenv-final-artifacts
	- Qwen 3B SFT/GRPO adapter files and checkpoint tree are available through the final artifact Space; Qwen 0.5B and 1.5B currently have reports/history/post-save SFT evidence but no adapter directories in the checked mirrors.
	- `postsave_inference.json` loads the merged artifact rather than the fallback policy for the older smoke path.
	- `improvement_report.json` shows positive average-reward improvement against the no-change baseline for the older smoke path.
	- `hf_space_verification.json` records a live Hugging Face Space validation pass.

	Best current evidence:

	- `final_submission_evidence/charts/curated/training/sft_loss_curves_all_models.png`
	- `final_submission_evidence/charts/curated/training/qwen_3b_grpo_reward_curve.png`
	- `final_submission_evidence/charts/curated/training/qwen_3b_grpo_loss_curve.png`
	- `final_submission_evidence/charts/curated/model_comparison/sft_vs_grpo_reward_by_model.png`
	- `final_submission_evidence/charts/curated/model_comparison/qwen_model_grpo_reward.png`
	- `final_submission_evidence/charts/curated/product_over_basic_llm/basic_llm_vs_full_pipeline_reward.png`
	- `final_submission_evidence/charts/curated/product_over_basic_llm/reward_delta_by_seed.png`
	- `final_submission_evidence/charts/curated/reward_and_safety/reward_component_bars.png`
	- `final_submission_evidence/charts/curated/inference/inference_validity_reward.png`
	- `final_submission_evidence/reports/basic_llm_vs_polyguard_report.json`
	- `final_submission_evidence/reports/action_traces.jsonl`
	- `final_submission_evidence/manifest.json`

	Older smoke artifacts remain here for auditability and regression checks. The root compatibility charts such as `avg_reward.png` and `policy_stack_avg_reward.png` are intentionally left in place because local gates still check them.