Spaces:

h1manshu
/

code_review

Sleeping

h1manshu commited on 14 days ago

Commit

f913610

verified ·

1 Parent(s): bbf592c

Upload folder using huggingface_hub

Files changed (5) hide show

README.md CHANGED Viewed

@@ -144,13 +144,24 @@ Install the OpenEnv core package:
 ```bash
 pip install openenv-core
 ```
-# Terminal 1 — install packages
 uv pip install -e .
-# Terminal 1 — Run server locally
 uv run server --host 0.0.0.0 --port 8000
-# Terminal 2 — run the agent
 uv run python inference.py
 ```

 ```bash
 pip install openenv-core
 ```
+Clone the repo
+```bash
+git clone https://github.com/Ajay-Ganapathy/code_review && cd code_review
+```
+Install packages
+```bash
 uv pip install -e .
+```
+`[OPTIONAL]` To run server locally
+```bash
 uv run server --host 0.0.0.0 --port 8000
+```
+Run the agent in another terminal
+```bash
 uv run python inference.py
 ```

client.py CHANGED Viewed

@@ -113,15 +113,13 @@ class CodeReviewEnv(EnvClient[CodeReviewAction, CodeReviewObservation, State]):
         # Handle reward (reset vs step)
         reward_data = payload.get("reward")
         reward = None
         if reward_data is not None:
             try:
                 reward = float(reward_data)
             except Exception:
                 reward = None
         return StepResult(
             observation=observation,
             reward=reward,

         # Handle reward (reset vs step)
         reward_data = payload.get("reward")
         reward = None
         if reward_data is not None:
             try:
                 reward = float(reward_data)
             except Exception:
                 reward = None
         return StepResult(
             observation=observation,
             reward=reward,

inference.py CHANGED Viewed

@@ -233,10 +233,7 @@ async def run_episode(client, env):
         reward = result.reward
         done = result.done
-        log_step(
-            step=step, action=response_text, reward=reward , done=done, error=None
-        )
         final_score = max(final_score, reward if reward else 0.0)
     return final_score

         reward = result.reward
         done = result.done
+        log_step(step=step, action=response_text, reward=reward, done=done, error=None)
         final_score = max(final_score, reward if reward else 0.0)
     return final_score

server/app.py CHANGED Viewed

@@ -74,11 +74,11 @@ def main():
     import argparse
     parser = argparse.ArgumentParser()
-    host = "0.0.0.0"
     parser.add_argument("--port", type=int, default=8000)
     args = parser.parse_args()
-    uvicorn.run(app, host=host, port=args.port)
 if __name__ == "__main__":

     import argparse
     parser = argparse.ArgumentParser()
+    parser.add_argument("--host" , type=str , default="0.0.0.0")
     parser.add_argument("--port", type=int, default=8000)
     args = parser.parse_args()
+    uvicorn.run(app, host=args.host, port=args.port)
 if __name__ == "__main__":

server/code_review_environment.py CHANGED Viewed

@@ -218,7 +218,7 @@ class CodeReviewEnvironment(Environment):
         # print("Obs == " , obs)
         rew = CodeReviewReward(score=score, feedback="graded")
-        print("Score == " , type(rew.score) , " --- " , rew.score)
         # print("FINAL REWARD TYPE:", type(rew))
         # print("FINAL REWARD:", rew)

         # print("Obs == " , obs)
         rew = CodeReviewReward(score=score, feedback="graded")
+        print("Score == ", type(rew.score), " --- ", rew.score)
         # print("FINAL REWARD TYPE:", type(rew))
         # print("FINAL REWARD:", rew)