Spaces:

Ajsaxena
/

deceit1

Paused

App Files Files Community

Jayant-Kernel commited on 13 days ago

Commit

b84ec51

unverified ·

1 Parent(s): 32b9179

update: evaluate retrained model, upload charts to HF Hub

Browse files

Files changed (1) hide show

evaluate.py +44 -1

evaluate.py CHANGED Viewed

@@ -1,4 +1,23 @@
 import os, json, re, torch, pathlib, gc
 from unsloth import FastLanguageModel
 from deceit_env.server.environment import DeceitEnvironment
 from deceit_env.server.grader import Grader
@@ -116,7 +135,7 @@ def evaluate_model(model_name, label, n_episodes=30):
 # Evaluate both models — 200 episodes each (env samples randomly with replacement)
 base_results = evaluate_model("unsloth/Qwen2.5-0.5B-Instruct", "Base Model (untrained)", n_episodes=200)
-trained_results = evaluate_model("Ajsaxena/deceit-qwen-0.5b-full", "DECEIT Trained", n_episodes=200)
 # Print comparison
 print("\n" + "="*60)
@@ -172,3 +191,27 @@ plt.savefig("reward_distribution.png", dpi=150, bbox_inches="tight")
 print("Saved reward_distribution.png")
 print("\nDone! Download comparison_chart.png and reward_distribution.png")

 import os, json, re, torch, pathlib, gc
+import threading
+from http.server import HTTPServer, BaseHTTPRequestHandler
+class HealthHandler(BaseHTTPRequestHandler):
+    def do_GET(self):
+        self.send_response(200)
+        self.end_headers()
+        self.wfile.write(b"Evaluation in progress...")
+    def log_message(self, format, *args):
+        pass
+def start_health_server():
+    server = HTTPServer(("0.0.0.0", 7860), HealthHandler)
+    server.serve_forever()
+health_thread = threading.Thread(target=start_health_server, daemon=True)
+health_thread.start()
+print("Health server started on port 7860")
 from unsloth import FastLanguageModel
 from deceit_env.server.environment import DeceitEnvironment
 from deceit_env.server.grader import Grader
 # Evaluate both models — 200 episodes each (env samples randomly with replacement)
 base_results = evaluate_model("unsloth/Qwen2.5-0.5B-Instruct", "Base Model (untrained)", n_episodes=200)
+trained_results = evaluate_model("Ajsaxena/deceit-qwen-0.5b-full", "DECEIT Trained", n_episodes=30)
 # Print comparison
 print("\n" + "="*60)
 print("Saved reward_distribution.png")
 print("\nDone! Download comparison_chart.png and reward_distribution.png")
+from huggingface_hub import upload_file
+import time
+try:
+    upload_file(
+        path_or_fileobj="comparison_chart.png",
+        path_in_repo="comparison_chart.png",
+        repo_id="Ajsaxena/deceit-qwen-0.5b-full",
+        repo_type="model"
+    )
+    upload_file(
+        path_or_fileobj="reward_distribution.png",
+        path_in_repo="reward_distribution.png",
+        repo_id="Ajsaxena/deceit-qwen-0.5b-full",
+        repo_type="model"
+    )
+    print("Charts uploaded to HF Hub successfully!")
+except Exception as e:
+    print(f"Upload error: {e}")
+print("Keeping alive for 120 seconds...")
+time.sleep(120)
+print("Done.")