Spaces:

Flickinshots
/

EmailMaestro

Running

App Files Files Community

Flickinshots commited on 13 days ago

Commit

200a73b

verified ·

1 Parent(s): 696d083

Deploy Project Epsilon Space bundle

Browse files

Files changed (12) hide show

README.md +4 -0
docs/HF_SPACE_README.md +4 -0
inference.py +72 -0
run.py +3 -3
src/executive_assistant/config.py +14 -4
src/executive_assistant/deployment.py +4 -0
src/executive_assistant/env.py +24 -2
src/executive_assistant/runner.py +2 -2
src/executive_assistant/training.py +1 -1
tests/test_agent.py +7 -7
tests/test_env.py +14 -3
tests/test_inference.py +30 -0

README.md CHANGED Viewed

@@ -6,6 +6,10 @@ colorTo: gray
 sdk: docker
 app_port: 7860
 pinned: false
 short_description: OpenEnv executive assistant sandbox demo for judges.
 ---

 sdk: docker
 app_port: 7860
 pinned: false
+tags:
+  - openenv
+  - docker
+  - gradio
 short_description: OpenEnv executive assistant sandbox demo for judges.
 ---

docs/HF_SPACE_README.md CHANGED Viewed

@@ -6,6 +6,10 @@ colorTo: gray
 sdk: docker
 app_port: 7860
 pinned: false
 short_description: OpenEnv executive assistant sandbox demo for judges.
 ---

 sdk: docker
 app_port: 7860
 pinned: false
+tags:
+  - openenv
+  - docker
+  - gradio
 short_description: OpenEnv executive assistant sandbox demo for judges.
 ---

inference.py ADDED Viewed

	@@ -0,0 +1,72 @@

+from __future__ import annotations
+import argparse
+import json
+import os
+from src.executive_assistant.agent import OpenRouterPolicy
+from src.executive_assistant.config import OpenRouterConfig
+from src.executive_assistant.runner import run_policy_suite
+TASKS = [
+    "easy_deadline_extraction",
+    "medium_triage_and_negotiation",
+    "hard_rag_reply",
+]
+def build_openai_compatible_policy() -> OpenRouterPolicy:
+    api_key = os.environ.get("OPENAI_API_KEY", "").strip()
+    base_url = os.environ.get("API_BASE_URL", "").strip()
+    model_name = os.environ.get("MODEL_NAME", "").strip()
+    if not api_key:
+        raise RuntimeError("OPENAI_API_KEY is required.")
+    if not base_url:
+        raise RuntimeError("API_BASE_URL is required.")
+    if not model_name:
+        raise RuntimeError("MODEL_NAME is required.")
+    config = OpenRouterConfig(
+        api_key=api_key,
+        base_url=base_url,
+        model_name=model_name,
+        site_url=os.environ.get("OPENROUTER_SITE_URL", "http://localhost:7860"),
+        app_name=os.environ.get(
+            "OPENROUTER_APP_NAME",
+            "EmailMaestro | Executive Assistant Sandbox",
+        ),
+        temperature=float(os.environ.get("OPENROUTER_TEMPERATURE", "0.0")),
+        max_tokens=int(os.environ.get("OPENROUTER_MAX_TOKENS", "600")),
+    )
+    return OpenRouterPolicy(config=config)
+def summarize_traces(traces) -> dict[str, dict[str, object]]:
+    return {
+        task_name: {
+            "completed": trace.completed,
+            "final_score": trace.final_score,
+            "steps": len(trace.steps),
+            "termination_reason": trace.termination_reason,
+        }
+        for task_name, trace in traces.items()
+    }
+def main() -> None:
+    parser = argparse.ArgumentParser(
+        description="Run the required OpenAI-client inference baseline against all seeded tasks."
+    )
+    parser.add_argument("--max-steps", type=int, default=12)
+    args = parser.parse_args()
+    traces = run_policy_suite(
+        policy=build_openai_compatible_policy(),
+        task_names=TASKS,
+        max_steps=args.max_steps,
+    )
+    print(json.dumps(summarize_traces(traces), indent=2))
+if __name__ == "__main__":
+    main()

run.py CHANGED Viewed

@@ -20,10 +20,10 @@ for step in range(10):
     print("Reasoning:", decision.reasoning)
     print("Action:", decision.action)
-    obs, reward = env.step(decision.action)
     print("Reward:", reward)
-    if reward.is_done:
         print("\nTASK COMPLETE ✅")
-        break

     print("Reasoning:", decision.reasoning)
     print("Action:", decision.action)
+    obs, reward, done, _ = env.step(decision.action)
     print("Reward:", reward)
+    if done:
         print("\nTASK COMPLETE ✅")
+        break

src/executive_assistant/config.py CHANGED Viewed

@@ -36,13 +36,23 @@ class OpenRouterConfig:
     def from_env(cls, env_file: str | Path | None = None) -> "OpenRouterConfig":
         if env_file is not None:
             load_env_file(env_file)
-        api_key = os.environ.get("OPENROUTER_API_KEY", "").strip()
         if not api_key:
-            raise RuntimeError("OPENROUTER_API_KEY is required for OpenRouter model access.")
         return cls(
             api_key=api_key,
-            model_name=os.environ.get("OPENROUTER_MODEL", "google/gemma-4-31b-it"),
-            base_url=os.environ.get("OPENROUTER_BASE_URL", "https://openrouter.ai/api/v1"),
             site_url=os.environ.get("OPENROUTER_SITE_URL", "http://localhost:7860"),
             app_name=os.environ.get(
                 "OPENROUTER_APP_NAME",

     def from_env(cls, env_file: str | Path | None = None) -> "OpenRouterConfig":
         if env_file is not None:
             load_env_file(env_file)
+        api_key = os.environ.get("OPENROUTER_API_KEY", "").strip() or os.environ.get(
+            "OPENAI_API_KEY", ""
+        ).strip()
         if not api_key:
+            raise RuntimeError(
+                "OPENROUTER_API_KEY or OPENAI_API_KEY is required for model access."
+            )
         return cls(
             api_key=api_key,
+            model_name=os.environ.get(
+                "OPENROUTER_MODEL",
+                os.environ.get("MODEL_NAME", "google/gemma-4-31b-it"),
+            ),
+            base_url=os.environ.get(
+                "OPENROUTER_BASE_URL",
+                os.environ.get("API_BASE_URL", "https://openrouter.ai/api/v1"),
+            ),
             site_url=os.environ.get("OPENROUTER_SITE_URL", "http://localhost:7860"),
             app_name=os.environ.get(
                 "OPENROUTER_APP_NAME",

src/executive_assistant/deployment.py CHANGED Viewed

@@ -98,6 +98,10 @@ colorTo: gray
 sdk: docker
 app_port: {config.app_port}
 pinned: false
 short_description: OpenEnv executive assistant sandbox demo for judges.
 ---

 sdk: docker
 app_port: {config.app_port}
 pinned: false
+tags:
+  - openenv
+  - docker
+  - gradio
 short_description: OpenEnv executive assistant sandbox demo for judges.
 ---

src/executive_assistant/env.py CHANGED Viewed

@@ -33,6 +33,18 @@ class ExecutiveAssistantEnv:
         self.step_count = 0
         return self.observe()
     def observe(self) -> WorkspaceObservation:
         unread = [
             EmailSummary(
@@ -58,7 +70,7 @@ class ExecutiveAssistantEnv:
             action_history=recent_actions,
         )
-    def step(self, action: AssistantAction) -> tuple[WorkspaceObservation, TaskReward]:
         self.step_count += 1
         if action.action_type == "read_email" and action.target_id is not None:
             row = self.workspace.read_email(action.target_id)
@@ -111,7 +123,17 @@ class ExecutiveAssistantEnv:
                 is_done=True,
                 reasoning=f"{reward.reasoning}; terminated at step budget",
             )
-        return observation, reward
     def grade(self) -> TaskReward:
         if self.task_name == "easy_deadline_extraction":

         self.step_count = 0
         return self.observe()
+    def state(self) -> dict[str, object]:
+        return {
+            "task_name": self.task_name,
+            "step_count": self.step_count,
+            "max_steps": self.max_steps,
+            "last_action_status": self.last_action_status,
+            "current_email": self.current_email.model_dump() if self.current_email else None,
+            "search_results": [result.model_dump() for result in self.search_results],
+            "observation": self.observe().model_dump(),
+            "workspace": self.workspace.snapshot(),
+        }
     def observe(self) -> WorkspaceObservation:
         unread = [
             EmailSummary(
             action_history=recent_actions,
         )
+    def step(self, action: AssistantAction) -> tuple[WorkspaceObservation, TaskReward, bool, dict[str, object]]:
         self.step_count += 1
         if action.action_type == "read_email" and action.target_id is not None:
             row = self.workspace.read_email(action.target_id)
                 is_done=True,
                 reasoning=f"{reward.reasoning}; terminated at step budget",
             )
+        done = reward.is_done
+        info = {
+            "task_name": self.task_name,
+            "step_count": self.step_count,
+            "max_steps": self.max_steps,
+            "status": self.last_action_status,
+            "reasoning": reward.reasoning,
+            "total_score": reward.total_score,
+            "state": self.state(),
+        }
+        return observation, reward, done, info
     def grade(self) -> TaskReward:
         if self.task_name == "easy_deadline_extraction":

src/executive_assistant/runner.py CHANGED Viewed

@@ -71,13 +71,13 @@ class EpisodeRunner:
         4. Update state and capture the resulting trace record
         """
         decision = self.policy.choose_action(task_name, observation)
-        next_observation, reward = env.step(decision.action)
         record = EpisodeStepRecord(
             step_index=env.step_count,
             reasoning=decision.reasoning,
             action=decision.action.model_dump(),
             observation=next_observation.model_dump(),
-            snapshot=env.workspace.snapshot(),
             reward=reward.model_dump(),
             status=next_observation.last_action_status,
         )

         4. Update state and capture the resulting trace record
         """
         decision = self.policy.choose_action(task_name, observation)
+        next_observation, reward, done, info = env.step(decision.action)
         record = EpisodeStepRecord(
             step_index=env.step_count,
             reasoning=decision.reasoning,
             action=decision.action.model_dump(),
             observation=next_observation.model_dump(),
+            snapshot=info["state"]["workspace"],
             reward=reward.model_dump(),
             status=next_observation.last_action_status,
         )

src/executive_assistant/training.py CHANGED Viewed

@@ -302,7 +302,7 @@ def train_q_learning(
             state = encode_observation(task_name, observation)
             decision = learner.choose_action(task_name, observation)
             action_name = action_name_from_decision(decision, observation)
-            next_observation, reward = env.step(decision.action)
             next_state = encode_observation(task_name, next_observation)
             reward_delta = reward.total_score - previous_total_score - 0.01
             previous_total_score = reward.total_score

             state = encode_observation(task_name, observation)
             decision = learner.choose_action(task_name, observation)
             action_name = action_name_from_decision(decision, observation)
+            next_observation, reward, _, _ = env.step(decision.action)
             next_state = encode_observation(task_name, next_observation)
             reward_delta = reward.total_score - previous_total_score - 0.01
             previous_total_score = reward.total_score

tests/test_agent.py CHANGED Viewed

@@ -73,8 +73,8 @@ def test_openrouter_policy_sanitizes_hard_reply_payload() -> None:
     )
     env = ExecutiveAssistantEnv(task_name="hard_rag_reply")
     observation = env.reset()
-    observation, _ = env.step(AssistantAction(action_type="read_email", target_id=1))
-    observation, _ = env.step(AssistantAction(action_type="search_files", payload="Q3 Architecture"))
     decision = policy.choose_action("hard_rag_reply", observation)
     assert decision.action.payload is not None
     assert decision.action.payload.lower().startswith("hello")
@@ -123,7 +123,7 @@ def test_openrouter_policy_normalizes_easy_todo_payload() -> None:
     )
     env = ExecutiveAssistantEnv(task_name="easy_deadline_extraction")
     observation = env.reset()
-    observation, _ = env.step(AssistantAction(action_type="read_email", target_id=1))
     decision = policy.choose_action("easy_deadline_extraction", observation)
     assert decision.action.payload == "Proposal Due"
     assert decision.action.secondary_payload == "2026-04-10"
@@ -148,10 +148,10 @@ def test_openrouter_policy_repairs_medium_forward_fields() -> None:
     )
     env = ExecutiveAssistantEnv(task_name="medium_triage_and_negotiation")
     observation = env.reset()
-    observation, _ = env.step(AssistantAction(action_type="archive", target_id=1))
-    observation, _ = env.step(AssistantAction(action_type="archive", target_id=2))
-    observation, _ = env.step(AssistantAction(action_type="archive", target_id=3))
-    observation, _ = env.step(AssistantAction(action_type="read_email", target_id=4))
     decision = policy.choose_action("medium_triage_and_negotiation", observation)
     assert decision.action.target_id == 4
     assert decision.action.secondary_payload == "manager@company.com"

     )
     env = ExecutiveAssistantEnv(task_name="hard_rag_reply")
     observation = env.reset()
+    observation, _, _, _ = env.step(AssistantAction(action_type="read_email", target_id=1))
+    observation, _, _, _ = env.step(AssistantAction(action_type="search_files", payload="Q3 Architecture"))
     decision = policy.choose_action("hard_rag_reply", observation)
     assert decision.action.payload is not None
     assert decision.action.payload.lower().startswith("hello")
     )
     env = ExecutiveAssistantEnv(task_name="easy_deadline_extraction")
     observation = env.reset()
+    observation, _, _, _ = env.step(AssistantAction(action_type="read_email", target_id=1))
     decision = policy.choose_action("easy_deadline_extraction", observation)
     assert decision.action.payload == "Proposal Due"
     assert decision.action.secondary_payload == "2026-04-10"
     )
     env = ExecutiveAssistantEnv(task_name="medium_triage_and_negotiation")
     observation = env.reset()
+    observation, _, _, _ = env.step(AssistantAction(action_type="archive", target_id=1))
+    observation, _, _, _ = env.step(AssistantAction(action_type="archive", target_id=2))
+    observation, _, _, _ = env.step(AssistantAction(action_type="archive", target_id=3))
+    observation, _, _, _ = env.step(AssistantAction(action_type="read_email", target_id=4))
     decision = policy.choose_action("medium_triage_and_negotiation", observation)
     assert decision.action.target_id == 4
     assert decision.action.secondary_payload == "manager@company.com"

tests/test_env.py CHANGED Viewed

@@ -11,7 +11,7 @@ def test_easy_env_reset_exposes_seeded_email() -> None:
 def test_easy_env_can_add_todo() -> None:
     env = ExecutiveAssistantEnv(task_name="easy_deadline_extraction")
     env.reset()
-    observation, reward = env.step(
         AssistantAction(
             action_type="add_todo",
             payload="Proposal due",
@@ -20,12 +20,14 @@ def test_easy_env_can_add_todo() -> None:
     )
     assert "Proposal due" in observation.active_todos
     assert reward.total_score >= 0.0
 def test_read_email_populates_current_email() -> None:
     env = ExecutiveAssistantEnv(task_name="easy_deadline_extraction")
     observation = env.reset()
-    observation, _ = env.step(
         AssistantAction(action_type="read_email", target_id=observation.unread_emails[0].id)
     )
     assert observation.current_email is not None
@@ -35,6 +37,15 @@ def test_read_email_populates_current_email() -> None:
 def test_search_files_populates_results() -> None:
     env = ExecutiveAssistantEnv(task_name="hard_rag_reply")
     env.reset()
-    observation, _ = env.step(AssistantAction(action_type="search_files", payload="Q3 Architecture"))
     assert observation.search_results
     assert observation.search_results[0].filename == "Q3_Architecture_Report.txt"

 def test_easy_env_can_add_todo() -> None:
     env = ExecutiveAssistantEnv(task_name="easy_deadline_extraction")
     env.reset()
+    observation, reward, done, info = env.step(
         AssistantAction(
             action_type="add_todo",
             payload="Proposal due",
     )
     assert "Proposal due" in observation.active_todos
     assert reward.total_score >= 0.0
+    assert done is False
+    assert info["task_name"] == "easy_deadline_extraction"
 def test_read_email_populates_current_email() -> None:
     env = ExecutiveAssistantEnv(task_name="easy_deadline_extraction")
     observation = env.reset()
+    observation, _, _, _ = env.step(
         AssistantAction(action_type="read_email", target_id=observation.unread_emails[0].id)
     )
     assert observation.current_email is not None
 def test_search_files_populates_results() -> None:
     env = ExecutiveAssistantEnv(task_name="hard_rag_reply")
     env.reset()
+    observation, _, _, _ = env.step(AssistantAction(action_type="search_files", payload="Q3 Architecture"))
     assert observation.search_results
     assert observation.search_results[0].filename == "Q3_Architecture_Report.txt"
+def test_state_returns_workspace_snapshot() -> None:
+    env = ExecutiveAssistantEnv(task_name="medium_triage_and_negotiation")
+    env.reset()
+    state = env.state()
+    assert state["task_name"] == "medium_triage_and_negotiation"
+    assert "workspace" in state
+    assert "emails" in state["workspace"]

tests/test_inference.py ADDED Viewed

	@@ -0,0 +1,30 @@

+import os
+from inference import build_openai_compatible_policy
+from src.executive_assistant.config import OpenRouterConfig
+def test_openrouter_config_accepts_hackathon_env_names(monkeypatch) -> None:
+    monkeypatch.delenv("OPENROUTER_API_KEY", raising=False)
+    monkeypatch.delenv("OPENROUTER_BASE_URL", raising=False)
+    monkeypatch.delenv("OPENROUTER_MODEL", raising=False)
+    monkeypatch.setenv("OPENAI_API_KEY", "test-key")
+    monkeypatch.setenv("API_BASE_URL", "https://openrouter.ai/api/v1")
+    monkeypatch.setenv("MODEL_NAME", "google/gemma-4-31b-it")
+    config = OpenRouterConfig.from_env()
+    assert config.api_key == "test-key"
+    assert config.base_url == "https://openrouter.ai/api/v1"
+    assert config.model_name == "google/gemma-4-31b-it"
+def test_inference_builds_openai_compatible_policy(monkeypatch) -> None:
+    monkeypatch.delenv("OPENROUTER_API_KEY", raising=False)
+    monkeypatch.delenv("OPENROUTER_BASE_URL", raising=False)
+    monkeypatch.delenv("OPENROUTER_MODEL", raising=False)
+    monkeypatch.setenv("OPENAI_API_KEY", "test-key")
+    monkeypatch.setenv("API_BASE_URL", "https://openrouter.ai/api/v1")
+    monkeypatch.setenv("MODEL_NAME", "google/gemma-4-31b-it")
+    policy = build_openai_compatible_policy()
+    assert policy.config.api_key == "test-key"
+    assert policy.config.base_url == "https://openrouter.ai/api/v1"
+    assert policy.config.model_name == "google/gemma-4-31b-it"