nraptisss
/

tmf921-intent-training

@@ -2,8 +2,9 @@
 set -euo pipefail
 # Evaluate a completed or checkpointed run under nohup.
 # Usage:
-#   bash scripts/nohup_eval.sh runs/qwen3-8b-qlora-YYYYMMDD-HHMMSS [adapter_path]
 if [ $# -lt 1 ]; then
   echo "Usage: $0 <RUN_DIR> [ADAPTER_PATH]" >&2
@@ -40,7 +41,11 @@ python scripts/evaluate_model.py \\
   --adapter '$ADAPTER' \\
   --dataset nraptisss/TMF921-intent-to-config-research-sota \\
   --output_dir '$RUN_DIR/eval' \\
-  --load_in_4bit
 " > "$LOG" 2>&1 &
 echo $! > "$RUN_DIR/EVAL_PID.txt"
@@ -55,4 +60,9 @@ RESULTS=$RUN_DIR/eval/all_metrics.json
 Monitor:
   tail -f "$LOG"
 EOF

 set -euo pipefail
 # Evaluate a completed or checkpointed run under nohup.
+# Resumable: existing eval/<split>/predictions.json rows are skipped.
 # Usage:
+#   EVAL_BATCH_SIZE=4 bash scripts/nohup_eval.sh runs/qwen3-8b-qlora-YYYYMMDD-HHMMSS [adapter_path]
 if [ $# -lt 1 ]; then
   echo "Usage: $0 <RUN_DIR> [ADAPTER_PATH]" >&2
   --adapter '$ADAPTER' \\
   --dataset nraptisss/TMF921-intent-to-config-research-sota \\
   --output_dir '$RUN_DIR/eval' \\
+  --load_in_4bit \\
+  --batch_size '${EVAL_BATCH_SIZE:-4}' \\
+  --max_new_tokens '${EVAL_MAX_NEW_TOKENS:-1536}' \\
+  --gold_length_buffer '${EVAL_GOLD_LENGTH_BUFFER:-96}' \\
+  --save_every '${EVAL_SAVE_EVERY:-25}'
 " > "$LOG" 2>&1 &
 echo $! > "$RUN_DIR/EVAL_PID.txt"
 Monitor:
   tail -f "$LOG"
+Tuning knobs:
+  EVAL_BATCH_SIZE=${EVAL_BATCH_SIZE:-4}
+  EVAL_MAX_NEW_TOKENS=${EVAL_MAX_NEW_TOKENS:-1536}
+  EVAL_GOLD_LENGTH_BUFFER=${EVAL_GOLD_LENGTH_BUFFER:-96}
 EOF