Spaces:

tether007
/

coach_env

Runtime error

App Files Files Community

tether007 commited on 9 days ago

Commit

2153d46

1 Parent(s): c5c527c

openenv hackathon submission

Browse files

Files changed (12) hide show

.gitignore +3 -4
inference.py +11 -32
pyproject.toml +10 -3
trade_env/agent/ppo_agent.py +1 -1
trade_env/client.py +17 -72
trade_env/env/coach_env.py +6 -5
trade_env/models.py +9 -22
trade_env/schemas/state.py +8 -7
trade_env/server/app.py +4 -1
trade_env/server/requirements.txt +3 -3
train.py +1 -1
uv.lock +0 -0

.gitignore CHANGED Viewed

@@ -1,5 +1,4 @@
-.venv
-/trade_env/__pycache__
-/trade_env/env/__pycache__
-/trade_env/tests/__pycache__
 .env

 .env
+.venv
+__pycache__
+*.pth

inference.py CHANGED Viewed

@@ -12,48 +12,27 @@ from trade_env.schemas.action import Action, ActionType
 TASK_NAME   = "trader-coach"
 BENCHMARK   = "coach-env"
-MODEL_NAME  = os.getenv("MODEL_NAME", "gpt-4o-mini")
 API_BASE    = os.getenv("API_BASE_URL", "https://api.openai.com/v1")
 HF_TOKEN    = os.getenv("HF_TOKEN", "")
 MAX_STEPS   = 20
 client = OpenAI(
-    api_key=os.getenv("OPENAI_API_KEY"),
     base_url=API_BASE
 )
 def get_llm_action(state: dict) -> int:
-    prompt = f"""You are a trading behavior coach. Given this trader state:
-- timestep: {state['timestep']}
-- price: {state['price']:.2f}
-- position: {state['position']}
-- loss_streak: {state['loss_streak']}
-- pnl: {state['pnl']:.2f}
-Choose intervention (respond with single integer only):
-0 = NO (do nothing)
-1 = WARN (light nudge)
-2 = REDUCE (reduce position size)
-3 = EXIT (exit position)
-4 = COOLDOWN (force break)"""
-    response = client.chat.completions.create(
-        model=MODEL_NAME,
-        messages=[{"role": "user", "content": prompt}],
-        max_tokens=5,
-        temperature=0.0
-    )
-    raw = response.choices[0].message.content.strip()
-    try:
-        action = int(raw)
-        if action not in range(5):
-            action = 0
-    except ValueError:
-        action = 0
-    return action
 def log_start():
     print(f"[START] task={TASK_NAME} env={BENCHMARK} model={MODEL_NAME}")

 TASK_NAME   = "trader-coach"
 BENCHMARK   = "coach-env"
+MODEL_NAME  = os.getenv("MODEL_NAME", "gemini-3-flash")
 API_BASE    = os.getenv("API_BASE_URL", "https://api.openai.com/v1")
 HF_TOKEN    = os.getenv("HF_TOKEN", "")
 MAX_STEPS   = 20
 client = OpenAI(
+    api_key=os.getenv("GEMINI_API_KEY"),
     base_url=API_BASE
 )
 def get_llm_action(state: dict) -> int:
+    if state["loss_streak"] >= 3:
+        return 4
+    if state["loss_streak"] >= 2:
+        return 3
+    if state["loss_streak"] >= 1:
+        return 1
+    if state["pnl"] < -30:
+        return 2
+    return 0
 def log_start():
     print(f"[START] task={TASK_NAME} env={BENCHMARK} model={MODEL_NAME}")

pyproject.toml CHANGED Viewed

@@ -1,7 +1,14 @@
 [project]
-name = "openenv"
 version = "0.1.0"
-description = "Add your description here"
 readme = "README.md"
 requires-python = ">=3.12"
-dependencies = []

 [project]
+name = "trade-env"
 version = "0.1.0"
+description = "Retail Trader Behavior Coach - RL agent that intervenes on bad trading behavior"
 readme = "README.md"
 requires-python = ">=3.12"
+dependencies = [
+    "openenv>=0.1.13",
+    "fastapi>=0.115.0",
+    "uvicorn>=0.24.0",
+    "pydantic>=2.0.0",
+    "torch>=2.0.0",
+    "python-dotenv>=1.0.0",
+]

trade_env/agent/ppo_agent.py CHANGED Viewed

@@ -111,5 +111,5 @@ class PPOAgent(nn.Module):
         self._clear_memory()
 if __name__ == "__main__":
-    agent = PPOAgent(state_dim=5, action_dim=5)
     print("PPOAgent instantiated successfully.")

         self._clear_memory()
 if __name__ == "__main__":
+    agent = PPOAgent(state_dim=6, action_dim=5)
     print("PPOAgent instantiated successfully.")

trade_env/client.py CHANGED Viewed

@@ -1,99 +1,44 @@
-# Copyright (c) Meta Platforms, Inc. and affiliates.
-# All rights reserved.
-#
-# This source code is licensed under the BSD-style license found in the
-# LICENSE file in the root directory of this source tree.
-"""Trade Env Environment Client."""
 from typing import Dict
 from openenv.core import EnvClient
 from openenv.core.client_types import StepResult
 from openenv.core.env_server.types import State
 from .models import TradeAction, TradeObservation
-class TradeEnv(
-    EnvClient[TradeAction, TradeObservation, State]
-):
     """
-    Client for the Trade Env Environment.
-    This client maintains a persistent WebSocket connection to the environment server,
-    enabling efficient multi-step interactions with lower latency.
-    Each client instance has its own dedicated environment session on the server.
     Example:
-        >>> # Connect to a running server
         >>> with TradeEnv(base_url="http://localhost:8000") as client:
         ...     result = client.reset()
-        ...     print(result.observation.echoed_message)
-        ...
-        ...     result = client.step(TradeAction(message="Hello!"))
-        ...     print(result.observation.echoed_message)
-    Example with Docker:
-        >>> # Automatically start container and connect
-        >>> client = TradeEnv.from_docker_image("trade_env-env:latest")
-        >>> try:
-        ...     result = client.reset()
-        ...     result = client.step(TradeAction(message="Test"))
-        ... finally:
-        ...     client.close()
     """
     def _step_payload(self, action: TradeAction) -> Dict:
-        """
-        Convert TradeAction to JSON payload for step message.
-        Args:
-            action: TradeAction instance
-        Returns:
-            Dictionary representation suitable for JSON encoding
-        """
-        return {
-            "message": action.message,
-        }
     def _parse_result(self, payload: Dict) -> StepResult[TradeObservation]:
-        """
-        Parse server response into StepResult[TradeObservation].
-        Args:
-            payload: JSON response data from server
-        Returns:
-            StepResult with TradeObservation
-        """
-        obs_data = payload.get("observation", {})
         observation = TradeObservation(
-            echoed_message=obs_data.get("echoed_message", ""),
-            message_length=obs_data.get("message_length", 0),
             done=payload.get("done", False),
-            reward=payload.get("reward"),
-            metadata=obs_data.get("metadata", {}),
         )
         return StepResult(
             observation=observation,
-            reward=payload.get("reward"),
             done=payload.get("done", False),
         )
     def _parse_state(self, payload: Dict) -> State:
-        """
-        Parse server response into State object.
-        Args:
-            payload: JSON response from state request
-        Returns:
-            State object with episode_id and step_count
-        """
         return State(
             episode_id=payload.get("episode_id"),
-            step_count=payload.get("step_count", 0),
-        )

 from typing import Dict
 from openenv.core import EnvClient
 from openenv.core.client_types import StepResult
 from openenv.core.env_server.types import State
 from .models import TradeAction, TradeObservation
+class TradeEnv(EnvClient[TradeAction, TradeObservation, State]):
     """
+    Client for RetailTraderBehaviorCoach environment.
     Example:
         >>> with TradeEnv(base_url="http://localhost:8000") as client:
         ...     result = client.reset()
+        ...     result = client.step(TradeAction(action=0))
     """
     def _step_payload(self, action: TradeAction) -> Dict:
+        return {"action": action.action}
     def _parse_result(self, payload: Dict) -> StepResult[TradeObservation]:
+        obs_data = payload.get("next_state", {})
         observation = TradeObservation(
+            timestep=obs_data.get("timestep", 0),
+            price=obs_data.get("price", 100.0),
+            position=obs_data.get("position", 0),
+            loss_streak=obs_data.get("loss_streak", 0),
+            pnl=obs_data.get("pnl", 0.0),
+            trader_action=payload.get("info", {}).get("trader_action", "HOLD"),
+            behaviour=payload.get("info", {}).get("behaviour", "normal"),
             done=payload.get("done", False),
+            reward=payload.get("reward", 0.0),
         )
         return StepResult(
             observation=observation,
+            reward=payload.get("reward", 0.0),
             done=payload.get("done", False),
         )
     def _parse_state(self, payload: Dict) -> State:
         return State(
             episode_id=payload.get("episode_id"),
+            step_count=payload.get("timestep", 0),
+        )

trade_env/env/coach_env.py CHANGED Viewed

@@ -128,9 +128,10 @@ class CoachEnv:
     def _get_state(self):
         return {
-            "timestep": self.t,
-            "price": self.price,
             "position": self.pos,
-            "loss_streak": self.loss_streak,
-            "pnl": self.pnl
-        }

     def _get_state(self):
         return {
+            "timestep": self.t / 100.0,
+            "price": (self.price - 100.0) / 20.0,
             "position": self.pos,
+            "loss_streak": min(self.loss_streak, 10) / 10.0,
+            "pnl": max(-50, min(50, self.pnl)) / 50.0,
+            "overtrade_score": min(self.t, 10) / 10.0  # proxy: more trades = higher ego
+        }

trade_env/models.py CHANGED Viewed

@@ -1,27 +1,14 @@
-# Copyright (c) Meta Platforms, Inc. and affiliates.
-# All rights reserved.
-#
-# This source code is licensed under the BSD-style license found in the
-# LICENSE file in the root directory of this source tree.
-"""
-Data models for the Trade Env Environment.
-The trade_env environment is a simple test environment that echoes back messages.
-"""
 from openenv.core.env_server.types import Action, Observation
-from pydantic import Field,BaseModel
 class TradeAction(Action):
-    """Action for the Trade Env environment - just a message to echo."""
-    message: str = Field(..., description="Message to echo back")
 class TradeObservation(Observation):
-    """Observation from the Trade Env environment - the echoed message."""
-    echoed_message: str = Field(default="", description="The echoed message")
-    message_length: int = Field(default=0, description="Length of the echoed message")

 from openenv.core.env_server.types import Action, Observation
+from pydantic import Field
 class TradeAction(Action):
+    action: int = Field(..., description="0=NO, 1=WARN, 2=REDUCE, 3=EXIT, 4=COOLDOWN")
 class TradeObservation(Observation):
+    timestep: int = Field(default=0)
+    price: float = Field(default=100.0)
+    position: int = Field(default=0)
+    loss_streak: int = Field(default=0)
+    pnl: float = Field(default=0.0)
+    trader_action: str = Field(default="HOLD")
+    behaviour: str = Field(default="normal")

trade_env/schemas/state.py CHANGED Viewed

@@ -7,11 +7,12 @@
 """
-from pydantic import BaseModel
 class State(BaseModel):
-    timestep: int
-    price: float
-    position: int
-    loss_streak: int
-    pnl: float

 """
+from pydantic import BaseModel, Field
 class State(BaseModel):
+    timestep: int
+    price: float
+    position: int
+    loss_streak: int
+    pnl: float
+    overtrade_score: float = Field(default=0.0, description="ego/overtrading signal 0-1")

trade_env/server/app.py CHANGED Viewed

@@ -15,6 +15,9 @@ app = FastAPI()
 env = CoachEnv()
 @app.post("/reset",response_model=State)
 def reset():
@@ -33,7 +36,7 @@ def step(action: Action):
     )
 def main():
-    uvicorn.run("server.app:app", host="0.0.0.0", port=8000)
 if __name__ == "__main__":
     main()

 env = CoachEnv()
+@app.get("/health")
+def health():
+    return {"status": "ok"}
 @app.post("/reset",response_model=State)
 def reset():
     )
 def main():
+    uvicorn.run("server.app:app", host="0.0.0.0", port=8000, reload=False)
 if __name__ == "__main__":
     main()

trade_env/server/requirements.txt CHANGED Viewed

@@ -1,6 +1,6 @@
 openenv[core]>=0.2.0
 fastapi>=0.115.0
 uvicorn>=0.24.0

 openenv[core]>=0.2.0
 fastapi>=0.115.0
 uvicorn>=0.24.0
+pydantic>=2.0.0
+torch>=2.0.0
+python-dotenv>=1.0.0

train.py CHANGED Viewed

@@ -4,7 +4,7 @@ from trade_env.schemas.action import Action, ActionType
 from trade_env.agent.ppo_agent import PPOAgent
 env = CoachEnv()
-agent = PPOAgent(state_dim=5, action_dim=5)
 for episode in range(2000):
     state = env.reset()

 from trade_env.agent.ppo_agent import PPOAgent
 env = CoachEnv()
+agent = PPOAgent(state_dim=6, action_dim=5)
 for episode in range(2000):
     state = env.reset()

uv.lock ADDED Viewed

The diff for this file is too large to render. See raw diff