Spaces:

mahammadaftab
/

OpenEnv

Sleeping

App Files Files Community

mahammadaftab commited on Apr 2

Commit

a8f498e

1 Parent(s): 82c787b

Error Debugged

Browse files

Files changed (1) hide show

app.py +33 -76

app.py CHANGED Viewed

@@ -91,72 +91,45 @@ def run_demo_episode(task_level: str = "medium", seed: int = 42):
     grader.reset()
     # Run episode
-    frames = []
     total_reward = 0.0
     steps = 0
     max_steps = 200  # Limit for demo
-    prev_position = env.position.copy()
-    optimal_distance = np.linalg.norm(env.target_position - env.position)
-    grader.episode_data['optimal_distance'] = optimal_distance
     for step in range(max_steps):
         # Random action for demo (in real use, this would be your agent)
         action = env.action_space.sample()
         # Take step
         obs, reward, terminated, truncated, info = env.step(action)
         # Update grader
-        current_position = env.position.copy()
-        distance_delta = np.linalg.norm(current_position - prev_position)
-        grader.update(
-            steps=1,
-            distance_traveled=distance_delta,
-            energy_consumed=np.sum(np.abs(action)) * 0.5,
-        )
-        # Check collisions
-        if hasattr(env, 'check_collision') and env.check_collision():
-            grader.update(collisions=1)
-        # Track wind deviation
-        if env.config.wind_disturbance and hasattr(env, 'wind_deviation'):
-            grader.update(max_wind_deviation=max(
-                grader.episode_data['max_wind_deviation'],
-                env.wind_deviation
-            ))
-        prev_position = current_position.copy()
         total_reward += reward
         steps += 1
-        # Render frame
-        if render_mode == "rgb_array":
-            try:
-                frame = env.render()
-                if frame is not None:
-                    frames.append(frame)
-            except Exception as e:
-                print(f"Rendering error (non-fatal): {e}")
-                # Continue without rendering
-                pass
         # Check termination
         if terminated or truncated:
             break
-    # Final updates
-    final_distance = np.linalg.norm(env.position - env.target_position)
-    target_radius = getattr(env, 'target_radius', 5.0)
-    grader.update(
-        target_reached=final_distance < target_radius,
-        final_distance_to_target=final_distance,
-        time_to_complete=steps,
-    )
     # Get grade report
     grade_report = grader.get_grade_report()
@@ -165,9 +138,9 @@ def run_demo_episode(task_level: str = "medium", seed: int = 42):
 **Episode Statistics:**
 - Steps: {steps}
 - Total Reward: {total_reward:.2f}
-- Final Distance: {final_distance:.2f}
-- Target Reached: {'Yes ✓' if grade_report['episode_data']['target_reached'] else 'No ✗'}
-- Collisions: {grade_report['episode_data']['collisions']}
     """.strip()
     # Generate grade text
@@ -187,15 +160,7 @@ def run_demo_episode(task_level: str = "medium", seed: int = 42):
     env.close()
-    # Return last frame (or create composite if multiple frames)
-    if len(frames) > 0:
-        # Use middle frame as representative
-        screenshot = frames[len(frames) // 2]
-    else:
-        # Create placeholder
-        screenshot = np.zeros((768, 1024, 3), dtype=np.uint8)
-    return screenshot, metrics_text, grade_text
 def compare_all_levels(seed: int = 42):
@@ -228,21 +193,14 @@ def compare_all_levels(seed: int = 42):
         # Run episode
         done = False
         steps = 0
         while not done and steps < 300:
             action = env.action_space.sample()
             obs, reward, terminated, truncated, info = env.step(action)
-            grader_instance.update(steps=1)
             done = terminated or truncated
             steps += 1
-        # Final evaluation
-        final_distance = np.linalg.norm(env.position - env.target_position)
-        grader_instance.update(
-            target_reached=final_distance < 5.0,
-            final_distance_to_target=final_distance,
-        )
         grade_report = grader_instance.get_grade_report()
         results.append({
@@ -282,10 +240,9 @@ def create_demo():
             with gr.Column(scale=3):
                 gr.Markdown("### 📺 Environment View")
-                output_image = gr.Image(
-                    label="Drone Navigation",
-                    type="numpy",
-                    height=500,
                 )
         with gr.Row():
@@ -309,7 +266,7 @@ def create_demo():
         run_button.click(
             fn=run_demo_episode,
             inputs=[task_level_dropdown, seed_slider],
-            outputs=[output_image, metrics_view, grade_output],
         )
         compare_button.click(
@@ -322,16 +279,16 @@ def create_demo():
         demo.load(
             fn=run_demo_episode,
             inputs=[task_level_dropdown, seed_slider],
-            outputs=[output_image, metrics_view, grade_output],
         )
         gr.Markdown("""
         ---
-        **About:** This is a production-ready RL environment for training autonomous drones.
-        **Task:** Navigate to the green target while managing velocity and avoiding obstacles.
-        **Scoring:** Agents are graded on target acquisition, collision avoidance, time efficiency, and energy management.
         [View on GitHub](https://github.com/yourusername/OpenEnv) | [Documentation](https://github.com/yourusername/OpenEnv#readme)
         """)

     grader.reset()
     # Run episode
+    history = []
     total_reward = 0.0
     steps = 0
     max_steps = 200  # Limit for demo
     for step in range(max_steps):
+        current_idx = env.current_email_index
+        if current_idx < len(env.emails_queue):
+            email = env.emails_queue[current_idx]
+            sender = email.sender
+            subject = email.subject
+        else:
+            break
         # Random action for demo (in real use, this would be your agent)
         action = env.action_space.sample()
         # Take step
         obs, reward, terminated, truncated, info = env.step(action)
+        action_map = {0: "Ignore", 1: "Reply", 2: "Forward", 3: "Archive", 4: "Delete"}
+        history.append([
+            sender,
+            subject,
+            action_map.get(action, str(action)),
+            f"{reward:.1f}",
+            "Yes" if info.get('last_reward', -1) > 0 else "No"
+        ])
         # Update grader
+        grader.update(**info)
         total_reward += reward
         steps += 1
         # Check termination
         if terminated or truncated:
             break
     # Get grade report
     grade_report = grader.get_grade_report()
 **Episode Statistics:**
 - Steps: {steps}
 - Total Reward: {total_reward:.2f}
+- Correct Actions: {info.get('correct_actions', 0)}
+- Incorrect Actions: {info.get('incorrect_actions', 0)}
+- Critical Failures: {info.get('critical_failures', 0)}
     """.strip()
     # Generate grade text
     env.close()
+    return history, metrics_text, grade_text
 def compare_all_levels(seed: int = 42):
         # Run episode
         done = False
         steps = 0
+        info = {}
         while not done and steps < 300:
             action = env.action_space.sample()
             obs, reward, terminated, truncated, info = env.step(action)
+            grader_instance.update(**info)
             done = terminated or truncated
             steps += 1
         grade_report = grader_instance.get_grade_report()
         results.append({
             with gr.Column(scale=3):
                 gr.Markdown("### 📺 Environment View")
+                output_view = gr.Dataframe(
+                    label="Inbox Triage History",
+                    headers=["Sender", "Subject", "Action Taken", "Reward", "Correct?"],
                 )
         with gr.Row():
         run_button.click(
             fn=run_demo_episode,
             inputs=[task_level_dropdown, seed_slider],
+            outputs=[output_view, metrics_view, grade_output],
         )
         compare_button.click(
         demo.load(
             fn=run_demo_episode,
             inputs=[task_level_dropdown, seed_slider],
+            outputs=[output_view, metrics_view, grade_output],
         )
         gr.Markdown("""
         ---
+        **About:** This is a production-ready RL environment for training email triage agents.
+        **Task:** Accurately classify emails. 0=Ignore, 1=Reply, 2=Forward, 3=Archive, 4=Delete.
+        **Scoring:** Agents are graded on accuracy and critical safety (e.g. not deleting urgent emails).
         [View on GitHub](https://github.com/yourusername/OpenEnv) | [Documentation](https://github.com/yourusername/OpenEnv#readme)
         """)