Spaces:

Draken1606
/

undertrial-ai

Running

App Files Files Community

undertrial-ai / server

Commit History

3-level curriculum + 7B + reward fixes

9868dfb

Draken1606 commited on 3 days ago

----

aa1acaa

Shabista Sehar commited on 13 days ago

feat: implement dataset loader, environment, and GRPO training pipeline for undertrial bail prediction

bf8f1ff

Draken1606 commited on 14 days ago

modified

a085ad1

Shabista Sehar commited on 14 days ago

implemented

d8f8a45

Shabista Sehar commited on 14 days ago

Fix A3 (OOM eval), B9 (NDPS eligibility), B3 (direction-gated computation bonus), A8-pt2 (episode_id case lookup)

4855450

Draken1606 commited on 14 days ago

Fix 8 compliance gaps: repeat-action dedup+cache, min-steps hard block, criminal history tool (12th action), efficiency removed from training formula, circular import cleaned, yaml formula synced

898bc18

Draken1606 commited on 14 days ago

Reward overhaul: add compute_reasoning_quality (anchoring+arithmetic+specificity+consistency), parity-grounds penalty, reduce outcome 40%->30%, add 10% reasoning quality signal

ca62faa

Draken1606 commited on 14 days ago

Fix 5 bugs: inference mode reset, step_counts in curriculum, adapter-only save (x3), DEMO001 false defence claim, episode_id in /reset

37edd09

Draken1606 commited on 14 days ago

import fixed

c1adced

Shabista Sehar commited on 14 days ago

Fix B1-B4: add 4 actions to openenv.yaml, export from init/client, fix reward range, remove global random.seed

03a48f9

Draken1606 commited on 14 days ago

Fix ACTION_MAP gaps: add 4 new tools to REST + WebSocket handlers; remove StepResult import collision

a1b1513

Draken1606 commited on 15 days ago

Add 4 missing actions: read_submissions, assess_flight_risk, check_case_factors, apply_proportionality (fixes 4.3d/e/g/h/i)

ce6728e

Draken1606 commited on 15 days ago

feat: implement core UndertriAI OpenEnv training environment with tool dispatch and reward logic

a1a7fd3

Draken1606 commited on 15 days ago

Fix all audit gaps: custody neutral, parity-first bias, skip penalty 0.40, statutory process reward, /observation endpoint, reset() timeout, drift determinism

2bc545f

Draken1606 commited on 15 days ago

Fix 3 teammate-caught crashes: statutory/bias wrong arg types in trainer, env.state() in WebSocket

04b605d

Draken1606 commited on 15 days ago

Fix 5 audit gaps: conditional bail, action history, efficiency reward, train/val split, env API routing

6218d9a

Draken1606 commited on 15 days ago

Fix 6 vulnerabilities: /state crash, reward clamp, condition reward, XML exploit, tool-skip bypass, timeout enforcement

d76d092

Draken1606 commited on 15 days ago

Fix demo: remove shuffle for deterministic seed=0; update stage 2+4 memos to match real seed=0 GT outcomes

8975766

Draken1606 commited on 15 days ago

Add seed param to /reset: demo pins to seed=0 per stage for consistent known episodes

9932c2e

Draken1606 commited on 15 days ago

Fix crash: call super().init() so self.rubric is set before _reset_rubric()

33279ea

Draken1606 commited on 15 days ago

OpenEnv compliance: proper base class, SUPPORTS_CONCURRENT_SESSIONS, state @property, updated openenv.yaml

b00feb0

Draken1606 commited on 15 days ago

Add 4 rich demo episodes (all stages incl. bias+BNSS); demo UI cycles random stages

53cd456

Draken1606 commited on 16 days ago

Serve interactive demo UI at root route instead of raw JSON

715d221

Draken1606 commited on 16 days ago

Add root GET route with API overview for HF Spaces landing page

92c3328

Draken1606 commited on 16 days ago

first commit

4052d84

Draken1606 commited on 16 days ago