Upload checkpoints/math_operations/base_model_eval

Browse files

Files changed (5) hide show

.gitattributes +1 -0
checkpoints/math_operations/base_model_eval/eval_results_easy_ops/balanced_test_alpaca_converted.jsonl +0 -0
checkpoints/math_operations/base_model_eval/eval_results_easy_ops/balanced_test_alpaca_results.jsonl +3 -0
checkpoints/math_operations/base_model_eval/eval_results_easy_ops/eval_results.csv +2 -0
checkpoints/math_operations/base_model_eval/eval_results_easy_ops/eval_summary.json +133 -0

.gitattributes CHANGED Viewed

@@ -62,3 +62,4 @@ checkpoints/knowledge/atomic_full_then_2step_full_sft_t20260305/checkpoint-710/t
 checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoints/math_operations/base_model_eval/eval_results_easy_ops/balanced_test_alpaca_results.jsonl filter=lfs diff=lfs merge=lfs -text

checkpoints/math_operations/base_model_eval/eval_results_easy_ops/balanced_test_alpaca_converted.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/math_operations/base_model_eval/eval_results_easy_ops/balanced_test_alpaca_results.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4fa82938ac18adb04d956ffed23da0b3f07a79e3692c2989432a310eab98ab4c
+size 11059849

checkpoints/math_operations/base_model_eval/eval_results_easy_ops/eval_results.csv ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ category,filename,total,correct,accuracy,format_found,format_accuracy,errors_count
2	+ math_operations,balanced_test_alpaca_results,500,413,82.60,425,85.00,87

checkpoints/math_operations/base_model_eval/eval_results_easy_ops/eval_summary.json ADDED Viewed

	@@ -0,0 +1,133 @@

+{
+  "overall": {
+    "total": 500,
+    "correct": 413,
+    "accuracy": 82.6,
+    "format_found": 425,
+    "format_accuracy": 85.0
+  },
+  "per_operation": {
+    "a": {
+      "total": 25,
+      "correct": 25,
+      "accuracy": 100.0,
+      "format_found": 25
+    },
+    "b": {
+      "total": 25,
+      "correct": 17,
+      "accuracy": 68.0,
+      "format_found": 25
+    },
+    "c": {
+      "total": 25,
+      "correct": 25,
+      "accuracy": 100.0,
+      "format_found": 25
+    },
+    "d": {
+      "total": 25,
+      "correct": 25,
+      "accuracy": 100.0,
+      "format_found": 25
+    },
+    "e": {
+      "total": 25,
+      "correct": 13,
+      "accuracy": 52.0,
+      "format_found": 11
+    },
+    "f": {
+      "total": 25,
+      "correct": 25,
+      "accuracy": 100.0,
+      "format_found": 25
+    },
+    "g": {
+      "total": 25,
+      "correct": 25,
+      "accuracy": 100.0,
+      "format_found": 25
+    },
+    "h": {
+      "total": 25,
+      "correct": 3,
+      "accuracy": 12.0,
+      "format_found": 2
+    },
+    "i": {
+      "total": 25,
+      "correct": 25,
+      "accuracy": 100.0,
+      "format_found": 25
+    },
+    "j": {
+      "total": 25,
+      "correct": 4,
+      "accuracy": 16.0,
+      "format_found": 2
+    },
+    "k": {
+      "total": 25,
+      "correct": 25,
+      "accuracy": 100.0,
+      "format_found": 25
+    },
+    "l": {
+      "total": 25,
+      "correct": 23,
+      "accuracy": 92.0,
+      "format_found": 24
+    },
+    "m": {
+      "total": 25,
+      "correct": 25,
+      "accuracy": 100.0,
+      "format_found": 25
+    },
+    "n": {
+      "total": 25,
+      "correct": 24,
+      "accuracy": 96.0,
+      "format_found": 24
+    },
+    "o": {
+      "total": 25,
+      "correct": 25,
+      "accuracy": 100.0,
+      "format_found": 25
+    },
+    "p": {
+      "total": 25,
+      "correct": 22,
+      "accuracy": 88.0,
+      "format_found": 22
+    },
+    "q": {
+      "total": 25,
+      "correct": 15,
+      "accuracy": 60.0,
+      "format_found": 15
+    },
+    "r": {
+      "total": 25,
+      "correct": 17,
+      "accuracy": 68.0,
+      "format_found": 25
+    },
+    "s": {
+      "total": 25,
+      "correct": 25,
+      "accuracy": 100.0,
+      "format_found": 25
+    },
+    "t": {
+      "total": 25,
+      "correct": 25,
+      "accuracy": 100.0,
+      "format_found": 25
+    }
+  },
+  "n_errors": 87,
+  "results_file": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/math_operations/base_model_eval/eval_results_easy_ops/balanced_test_alpaca_results.jsonl"
+}