GestaltLabs
/

BusyBeaver-50M

+# BusyBeaver Evaluation Report
+- Mode: model
+- Rows: 384
+- json_validity_rate: 1.0000
+- strict_json_rate: 1.0000
+- schema_validity_rate: 1.0000
+- valid_tool_rate: 1.0000
+- correct_tool_accuracy: 1.0000
+- argument_exact_match: 0.8958
+- argument_semantic_match: 0.9792
+- unnecessary_escalation_rate: 0.0000
+- unsafe_command_rate: 0.0000
+- placeholder_rate: 0.0000
+- correct_tool_and_arg_semantic: 0.9792
+- repeated_action_loop_rate: 0.0000
+- concrete_argument_semantic_match: 0.9792
+- recovery_action_accuracy: 1.0000
+- concrete_argument_rows: 384.0000
+- recovery_rows: 128.0000
+## Grouped Metrics
+### edit (n=32)
+- json_validity_rate: 1.0000
+- strict_json_rate: 1.0000
+- schema_validity_rate: 1.0000
+- valid_tool_rate: 1.0000
+- correct_tool_accuracy: 1.0000
+- argument_exact_match: 1.0000
+- argument_semantic_match: 1.0000
+### escalate (n=32)
+- json_validity_rate: 1.0000
+- strict_json_rate: 1.0000
+- schema_validity_rate: 1.0000
+- valid_tool_rate: 1.0000
+- correct_tool_accuracy: 1.0000
+- argument_exact_match: 1.0000
+- argument_semantic_match: 1.0000
+### execute (n=32)
+- json_validity_rate: 1.0000
+- strict_json_rate: 1.0000
+- schema_validity_rate: 1.0000
+- valid_tool_rate: 1.0000
+- correct_tool_accuracy: 1.0000
+- argument_exact_match: 1.0000
+- argument_semantic_match: 1.0000
+### inspect (n=128)
+- json_validity_rate: 1.0000
+- strict_json_rate: 1.0000
+- schema_validity_rate: 1.0000
+- valid_tool_rate: 1.0000
+- correct_tool_accuracy: 1.0000
+- argument_exact_match: 0.9922
+- argument_semantic_match: 0.9922
+### memory (n=32)
+- json_validity_rate: 1.0000
+- strict_json_rate: 1.0000
+- schema_validity_rate: 1.0000
+- valid_tool_rate: 1.0000
+- correct_tool_accuracy: 1.0000
+- argument_exact_match: 0.7812
+- argument_semantic_match: 0.7812
+### other (n=96)
+- json_validity_rate: 1.0000
+- strict_json_rate: 1.0000
+- schema_validity_rate: 1.0000
+- valid_tool_rate: 1.0000
+- correct_tool_accuracy: 1.0000
+- argument_exact_match: 0.6667
+- argument_semantic_match: 1.0000
+### test (n=32)
+- json_validity_rate: 1.0000
+- strict_json_rate: 1.0000
+- schema_validity_rate: 1.0000
+- valid_tool_rate: 1.0000
+- correct_tool_accuracy: 1.0000
+- argument_exact_match: 1.0000
+- argument_semantic_match: 1.0000