HaiwenXia commited on Jan 25

Commit

87136b4

verified ·

1 Parent(s): 2a15825

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

20260124_2143/config.yaml +142 -0
20260124_2143/reward_model/1769262210.5061178/events.out.tfevents.1769262210.MACLAB-S004.2626926.1 +3 -0
20260124_2143/reward_model/1769262210.5078583/hparams.yml +4 -0
20260124_2143/reward_model/events.out.tfevents.1769262210.MACLAB-S004.2626926.0 +3 -0
20260124_2143/train.20260124_2143.log +803 -0
20260124_2354/config.yaml +142 -0
20260124_2354/reward_model/1769270104.0081618/events.out.tfevents.1769270104.MACLAB-S004.3211506.1 +3 -0
20260124_2354/reward_model/1769270104.0091846/hparams.yml +4 -0
20260124_2354/reward_model/events.out.tfevents.1769270104.MACLAB-S004.3211506.0 +3 -0
20260124_2354/train.20260124_2354.log +306 -0
20260125_0035/config.yaml +142 -0
20260125_0035/reward_model/1769272544.7198617/events.out.tfevents.1769272544.MACLAB-S004.3403711.1 +3 -0
20260125_0035/reward_model/1769272544.7213397/hparams.yml +4 -0
20260125_0035/reward_model/events.out.tfevents.1769272544.MACLAB-S004.3403711.0 +3 -0
20260125_0035/train.20260125_0035.log +421 -0
20260125_0037/config.yaml +142 -0
20260125_0037/eval_results_0125_1713.jsonl +0 -0
20260125_0037/reward_model/1769272678.832529/events.out.tfevents.1769272678.MACLAB-S004.3414271.1 +3 -0
20260125_0037/reward_model/1769272678.8337765/hparams.yml +4 -0
20260125_0037/reward_model/events.out.tfevents.1769272678.MACLAB-S004.3414271.0 +3 -0
20260125_0037/train.20260125_0037.log +421 -0
20260125_0038/config.yaml +142 -0
20260125_0038/reward_model/1769272741.4481056/events.out.tfevents.1769272741.MACLAB-S004.3419169.1 +3 -0
20260125_0038/reward_model/1769272741.4495451/hparams.yml +4 -0
20260125_0038/reward_model/events.out.tfevents.1769272741.MACLAB-S004.3419169.0 +3 -0
20260125_0038/train.20260125_0038.log +211 -0
20260125_0933/config.yaml +142 -0
20260125_0933/reward_model/1769304848.6545663/events.out.tfevents.1769304848.MACLAB-S004.1519845.1 +3 -0
20260125_0933/reward_model/1769304848.6563416/hparams.yml +4 -0
20260125_0933/reward_model/events.out.tfevents.1769304848.MACLAB-S004.1519845.0 +3 -0
20260125_0933/train.20260125_0933.log +564 -0
20260125_0947_CA/config.yaml +142 -0
20260125_0947_CA/eval_results_0125_1703.jsonl +0 -0
20260125_0947_CA/reward_model/1769305674.1033533/events.out.tfevents.1769305674.MACLAB-S004.1592070.1 +3 -0
20260125_0947_CA/reward_model/1769305674.1053352/hparams.yml +4 -0
20260125_0947_CA/reward_model/events.out.tfevents.1769305674.MACLAB-S004.1592070.0 +3 -0
20260125_0947_CA/train.20260125_0947_CA.log +438 -0
20260125_1117/config.yaml +142 -0
20260125_1117/reward_model/1769311084.1305242/events.out.tfevents.1769311084.MACLAB-S004.2009526.1 +3 -0
20260125_1117/reward_model/1769311084.1322424/hparams.yml +4 -0
20260125_1117/reward_model/events.out.tfevents.1769311084.MACLAB-S004.2009526.0 +3 -0
20260125_1117/train.20260125_1117.log +441 -0
20260125_1231/config.yaml +142 -0
20260125_1231/eval_results_0125_1707.jsonl +0 -0
20260125_1231/reward_model/1769315504.5030606/events.out.tfevents.1769315504.MACLAB-S004.2360364.1 +3 -0
20260125_1231/reward_model/1769315504.5045948/hparams.yml +4 -0
20260125_1231/reward_model/events.out.tfevents.1769315504.MACLAB-S004.2360364.0 +3 -0
20260125_1231/test_20260125_191012_reward_model.best_4499/test_results.json +51 -0
20260125_1231/test_20260125_194533_reward_model.best_4499/test_config.yaml +142 -0
20260125_1231/test_20260125_194533_reward_model.best_4499/test_results.json +239 -0

20260124_2143/config.yaml ADDED Viewed

	@@ -0,0 +1,142 @@

+DEVICES: '3'
+accelerate:
+  mixed_precision: bf16
+basics:
+  random_seed: 42
+  save_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model
+dataset:
+  audio_dropout:
+    apply_to_eval: false
+    apply_to_ref: true
+    enabled: false
+    eval_only_on_training: true
+    max_duration: 1500
+    min_duration: 1500
+    train_mode: start
+  cache_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/tmp
+  db_path: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/backend/database.db
+  duration: 600.0
+  embedding_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/supervised_embeddings
+  max_samples: null
+  max_val_samples: null
+  metadata_jsonl: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/all_comparisons.jsonl
+  mode: raw_text_frozen_audio
+  preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/human_annotations/train.json
+  sample_rate: 24000
+  val_preference_file: null
+loss:
+  IF_ratio: 0.5
+  filter_ties: true
+  label_smoothing: 0.0
+  reduction: mean
+model:
+  attention_mode: SA
+  attn_dropout: 0.0
+  category_embeddings: null
+  dim: 768
+  dim_head: 64
+  downsample:
+    configs:
+      conv2_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv*2
+        use_layernorm: true
+      conv_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv
+        stage: 1
+        use_layernorm: true
+      glu_4x:
+        factor: 4
+        kernel_size: 5
+        kind: gluconv*2+pw
+        use_layernorm: true
+      mean:
+        factor: 2
+        kind: mean
+      mean_4x:
+        dropout: 0.0
+        factor: 30
+        kind: mean+mlp
+        mlp_ratio: 2.0
+      none:
+        factor: 1
+        kind: none
+    eval: mean_4x
+    ref: null
+    text: none
+  ff_dropout: 0.0
+  ff_mult: 4
+  freeze_audio: true
+  freeze_text: true
+  gradient_checkpointing: false
+  heads: 8
+  joint_tf_depth: 1
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+  mlp_dim: 768
+  mode: concat_text_late
+  model_name: OpenMuQ/MuQ-MuLan-large
+  name: reward
+  no_condition: false
+  null_embedding:
+    audio:
+      dropout: 0.5
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    text:
+      dropout: 0
+      length: 10
+  output_dim: 2
+  prompt_tf_depth: 4
+  sr: 24000
+  text_encoder:
+    name: muq_mulan
+    tune: null
+  text_lora_config: null
+  train_muq_depth: 0
+  train_muqmulan: false
+  use_audio: true
+  use_layer_idx: -1
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: null
+train:
+  batch_size: 48
+  betas:
+  - 0.9
+  - 0.99
+  ema_decay: 0.9999
+  ema_update_every: 1
+  enable_gradient_checkpointing: true
+  force_clear_prev_results: false
+  grad_accum_every: 1
+  log_tensorboard: true
+  lr_schedule:
+    min_lr_ratio: 0.001
+    name: linear_cosine
+    total_steps: 4000
+    warmup_steps: 300
+  max_grad_norm: 1
+  mlp_lr: 0.0001
+  num_train_steps: 4000
+  num_valid_batches: null
+  num_workers: 8
+  other_lr: 1.0e-05
+  resume: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.best_29999.pt
+  resume_optimizer: false
+  save_model_every: 2000
+  use_checkpoint_config: true
+  use_ema: true
+  use_lion: false
+  valid_batch_size: 20
+  valid_every: 100
+  valid_frac: 0.1
+  verify_weights_on_load: true
+validate_only: false

20260124_2143/reward_model/1769262210.5061178/events.out.tfevents.1769262210.MACLAB-S004.2626926.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82ee766b07252644d7045f50ffd3d29ed1cbc0b26a834bdb1d855c526f959108
+size 503

20260124_2143/reward_model/1769262210.5078583/hparams.yml ADDED Viewed

	@@ -0,0 +1,4 @@

+batch_size: 48
+grad_accum_every: 1
+learning_rate: 0.0001
+num_train_steps: 4000

20260124_2143/reward_model/events.out.tfevents.1769262210.MACLAB-S004.2626926.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:361130a96e5393eb1f50a4f818c47547a16295e3f01976ce0e9113e0a561cf68
+size 2219689

20260124_2143/train.20260124_2143.log ADDED Viewed

	@@ -0,0 +1,803 @@

+2026-01-24 21:43:19 | INFO | Log file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/train.20260124_2143.log
+2026-01-24 21:43:19 | INFO | Random seed set to 42
+2026-01-24 21:43:21 | INFO | Created RawTextFrozenAudioDataset with 3463 samples
+2026-01-24 21:43:21 | INFO | Split dataset into train (3117) and validation (346) sets (ratio: 10.00%)
+2026-01-24 21:43:21 | INFO | Will resume from checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.best_29999.pt
+2026-01-24 21:43:21 | INFO | Using checkpoint config for model initialization (continue training mode)
+2026-01-24 21:43:29 | INFO | Created RewardAttentionModel with attention_mode=SA
+2026-01-24 21:43:29 | INFO | Created PreferenceLoss with filter_ties=True
+2026-01-24 21:43:29 | INFO | ✓ Gradient checkpointing enabled
+2026-01-24 21:43:29 | INFO | ✓ EMA enabled with decay=0.9999, update_every=1 (CPU offload)
+2026-01-24 21:43:29 | INFO | MLP head parameters: 1,186,563 params, lr=0.0001
+2026-01-24 21:43:29 | INFO | Other parameters: 37,397,634 params, lr=1e-05
+2026-01-24 21:43:29 | INFO | Using lr_schedule=linear_cosine warmup_steps=300 total_steps=4000
+2026-01-24 21:43:29 | INFO | Training with fixed validation set
+2026-01-24 21:43:29 | INFO | Train batch_size: 48, Valid batch_size: 20
+2026-01-24 21:43:29 | INFO | Missing keys (782): ['text_module.model.embeddings.word_embeddings.weight', 'text_module.model.embeddings.position_embeddings.weight', 'text_module.model.embeddings.token_type_embeddings.weight', 'text_module.model.embeddings.LayerNorm.weight', 'text_module.model.embeddings.LayerNorm.bias']...
+2026-01-24 21:43:29 | INFO | ✓ EMA state loaded
+2026-01-24 21:43:29 | INFO | ✓ Starting from step 0 (transfer learning mode, ignoring checkpoint steps=29999)
+2026-01-24 21:43:29 | INFO | Resumed from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.best_29999.pt
+2026-01-24 21:43:29 | INFO | Parameters: 701.162M total, 38.584M trainable
+2026-01-24 21:43:29 | INFO |   Text encoder (frozen): 328.389M
+2026-01-24 21:43:29 | INFO |   Audio encoder (frozen): 334.189M
+2026-01-24 21:43:29 | INFO |   Other trainable: 38.584M
+2026-01-24 21:43:29 | INFO | ℹ No LoRA configuration detected
+2026-01-24 21:43:30 | INFO | ============================================================
+2026-01-24 21:43:30 | INFO | Ready to start training
+2026-01-24 21:43:30 | INFO | ============================================================
+2026-01-24 21:43:30 | INFO | Starting training from step 0
+2026-01-24 21:43:30 | INFO | ===== Accelerator / CUDA Debug Info =====
+2026-01-24 21:43:30 | INFO | accelerator.device = cuda
+2026-01-24 21:43:30 | INFO | mixed_precision = bf16
+2026-01-24 21:43:30 | INFO | distributed_type = NO
+2026-01-24 21:43:30 | INFO | num_processes = 1
+2026-01-24 21:43:30 | INFO | process_index = 0
+2026-01-24 21:43:30 | INFO | is_main_process = True
+2026-01-24 21:43:30 | INFO | torch.cuda.is_available() = True
+2026-01-24 21:43:30 | INFO | torch.cuda.device_count() = 1
+2026-01-24 21:43:30 | INFO | current_device = 0
+2026-01-24 21:43:30 | INFO | device_name = NVIDIA GeForce RTX 4090
+2026-01-24 21:43:30 | INFO | model parameter device = cuda:0
+2026-01-24 21:43:30 | INFO | Training for 4000.0 steps (~63 epochs, 64 steps/epoch)
+2026-01-24 21:43:38 | INFO | Step 0: loss=1.6133 | IF_loss=2.2461, MQ_loss=0.9805 | acc=0.740 (IF=0.708, MQ=0.771) | lr=0.000001
+2026-01-24 21:43:38 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.0.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:43:39 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.0.pt (575.2MB)
+2026-01-24 21:43:39 | INFO | Step 0: Saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.0.pt
+2026-01-24 21:45:32 | INFO |
+============================================================
+Validation Results (took 9.56s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6821
+  Quality Acc: 0.6387
+  Average Acc: 0.6604
+  Total Loss: 1.8726
+  Instruction Loss: 1.6586
+  Quality Loss: 2.0866
+============================================================
+2026-01-24 21:45:32 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_99.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:45:33 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_99.pt (575.2MB)
+2026-01-24 21:45:33 | INFO | Best 1 checkpoints:
+2026-01-24 21:45:33 | INFO |   1. Step 99: acc=0.6604 (reward_model.best_99.pt)
+2026-01-24 21:45:34 | INFO | Step 100: loss=1.5309 | IF_loss=1.2373, MQ_loss=1.8246 | acc=0.646 (IF=0.688, MQ=0.604) | lr=0.000034
+2026-01-24 21:47:29 | INFO |
+============================================================
+Validation Results (took 8.11s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6387
+  Average Acc: 0.6618
+  Total Loss: 1.8631
+  Instruction Loss: 1.6525
+  Quality Loss: 2.0736
+============================================================
+2026-01-24 21:47:29 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_199.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:47:30 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_199.pt (575.2MB)
+2026-01-24 21:47:30 | INFO | Best 2 checkpoints:
+2026-01-24 21:47:30 | INFO |   1. Step 199: acc=0.6618 (reward_model.best_199.pt)
+2026-01-24 21:47:30 | INFO |   2. Step 99: acc=0.6604 (reward_model.best_99.pt)
+2026-01-24 21:47:31 | INFO | Step 200: loss=0.4360 | IF_loss=0.4299, MQ_loss=0.4421 | acc=0.833 (IF=0.812, MQ=0.854) | lr=0.000067
+2026-01-24 21:49:25 | INFO |
+============================================================
+Validation Results (took 9.42s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6387
+  Average Acc: 0.6618
+  Total Loss: 1.8438
+  Instruction Loss: 1.6364
+  Quality Loss: 2.0512
+============================================================
+2026-01-24 21:49:25 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_299.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:49:25 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_299.pt (575.2MB)
+2026-01-24 21:49:25 | INFO | Best 3 checkpoints:
+2026-01-24 21:49:25 | INFO |   1. Step 199: acc=0.6618 (reward_model.best_199.pt)
+2026-01-24 21:49:25 | INFO |   2. Step 299: acc=0.6618 (reward_model.best_299.pt)
+2026-01-24 21:49:25 | INFO |   3. Step 99: acc=0.6604 (reward_model.best_99.pt)
+2026-01-24 21:49:26 | INFO | Step 300: loss=0.4121 | IF_loss=0.5007, MQ_loss=0.3235 | acc=0.844 (IF=0.792, MQ=0.896) | lr=0.000100
+2026-01-24 21:51:23 | INFO |
+============================================================
+Validation Results (took 7.32s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6387
+  Average Acc: 0.6618
+  Total Loss: 1.8266
+  Instruction Loss: 1.6230
+  Quality Loss: 2.0303
+============================================================
+2026-01-24 21:51:23 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_399.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:51:24 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_399.pt (575.2MB)
+2026-01-24 21:51:24 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_99.pt
+2026-01-24 21:51:24 | INFO | Best 3 checkpoints:
+2026-01-24 21:51:24 | INFO |   1. Step 199: acc=0.6618 (reward_model.best_199.pt)
+2026-01-24 21:51:24 | INFO |   2. Step 299: acc=0.6618 (reward_model.best_299.pt)
+2026-01-24 21:51:24 | INFO |   3. Step 399: acc=0.6618 (reward_model.best_399.pt)
+2026-01-24 21:51:25 | INFO | Step 400: loss=0.4819 | IF_loss=0.4988, MQ_loss=0.4650 | acc=0.760 (IF=0.708, MQ=0.812) | lr=0.000100
+2026-01-24 21:53:18 | INFO |
+============================================================
+Validation Results (took 8.30s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6821
+  Quality Acc: 0.6416
+  Average Acc: 0.6618
+  Total Loss: 1.8103
+  Instruction Loss: 1.6100
+  Quality Loss: 2.0107
+============================================================
+2026-01-24 21:53:18 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_499.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:53:19 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_499.pt (575.2MB)
+2026-01-24 21:53:19 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_499.pt
+2026-01-24 21:53:19 | INFO | Best 3 checkpoints:
+2026-01-24 21:53:19 | INFO |   1. Step 199: acc=0.6618 (reward_model.best_199.pt)
+2026-01-24 21:53:19 | INFO |   2. Step 299: acc=0.6618 (reward_model.best_299.pt)
+2026-01-24 21:53:19 | INFO |   3. Step 399: acc=0.6618 (reward_model.best_399.pt)
+2026-01-24 21:53:20 | INFO | Step 500: loss=0.4074 | IF_loss=0.4939, MQ_loss=0.3209 | acc=0.854 (IF=0.792, MQ=0.917) | lr=0.000099
+2026-01-24 21:55:17 | INFO |
+============================================================
+Validation Results (took 7.55s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6821
+  Quality Acc: 0.6416
+  Average Acc: 0.6618
+  Total Loss: 1.7951
+  Instruction Loss: 1.5986
+  Quality Loss: 1.9916
+============================================================
+2026-01-24 21:55:17 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_599.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:55:17 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_599.pt (575.2MB)
+2026-01-24 21:55:17 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_599.pt
+2026-01-24 21:55:17 | INFO | Best 3 checkpoints:
+2026-01-24 21:55:17 | INFO |   1. Step 199: acc=0.6618 (reward_model.best_199.pt)
+2026-01-24 21:55:17 | INFO |   2. Step 299: acc=0.6618 (reward_model.best_299.pt)
+2026-01-24 21:55:17 | INFO |   3. Step 399: acc=0.6618 (reward_model.best_399.pt)
+2026-01-24 21:55:18 | INFO | Step 600: loss=0.3505 | IF_loss=0.3784, MQ_loss=0.3226 | acc=0.844 (IF=0.812, MQ=0.875) | lr=0.000098
+2026-01-24 21:57:14 | INFO |
+============================================================
+Validation Results (took 7.89s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6821
+  Quality Acc: 0.6445
+  Average Acc: 0.6633
+  Total Loss: 1.7807
+  Instruction Loss: 1.5876
+  Quality Loss: 1.9739
+============================================================
+2026-01-24 21:57:14 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_699.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:57:14 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_699.pt (575.2MB)
+2026-01-24 21:57:14 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_399.pt
+2026-01-24 21:57:14 | INFO | Best 3 checkpoints:
+2026-01-24 21:57:14 | INFO |   1. Step 699: acc=0.6633 (reward_model.best_699.pt)
+2026-01-24 21:57:14 | INFO |   2. Step 199: acc=0.6618 (reward_model.best_199.pt)
+2026-01-24 21:57:14 | INFO |   3. Step 299: acc=0.6618 (reward_model.best_299.pt)
+2026-01-24 21:57:15 | INFO | Step 700: loss=0.2439 | IF_loss=0.3054, MQ_loss=0.1823 | acc=0.875 (IF=0.854, MQ=0.896) | lr=0.000097
+2026-01-24 21:59:13 | INFO |
+============================================================
+Validation Results (took 7.71s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6821
+  Quality Acc: 0.6474
+  Average Acc: 0.6647
+  Total Loss: 1.7686
+  Instruction Loss: 1.5780
+  Quality Loss: 1.9591
+============================================================
+2026-01-24 21:59:13 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_799.pt (filtered to 38.584M trainable parameters)
+2026-01-24 21:59:13 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_799.pt (575.2MB)
+2026-01-24 21:59:13 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_299.pt
+2026-01-24 21:59:13 | INFO | Best 3 checkpoints:
+2026-01-24 21:59:13 | INFO |   1. Step 799: acc=0.6647 (reward_model.best_799.pt)
+2026-01-24 21:59:13 | INFO |   2. Step 699: acc=0.6633 (reward_model.best_699.pt)
+2026-01-24 21:59:13 | INFO |   3. Step 199: acc=0.6618 (reward_model.best_199.pt)
+2026-01-24 21:59:14 | INFO | Step 800: loss=0.2827 | IF_loss=0.3525, MQ_loss=0.2128 | acc=0.885 (IF=0.875, MQ=0.896) | lr=0.000096
+2026-01-24 22:01:11 | INFO |
+============================================================
+Validation Results (took 7.05s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6474
+  Average Acc: 0.6662
+  Total Loss: 1.7570
+  Instruction Loss: 1.5693
+  Quality Loss: 1.9446
+============================================================
+2026-01-24 22:01:11 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_899.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:01:12 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_899.pt (575.2MB)
+2026-01-24 22:01:12 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_199.pt
+2026-01-24 22:01:12 | INFO | Best 3 checkpoints:
+2026-01-24 22:01:12 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:01:12 | INFO |   2. Step 799: acc=0.6647 (reward_model.best_799.pt)
+2026-01-24 22:01:12 | INFO |   3. Step 699: acc=0.6633 (reward_model.best_699.pt)
+2026-01-24 22:01:13 | INFO | Step 900: loss=0.1525 | IF_loss=0.1838, MQ_loss=0.1212 | acc=0.958 (IF=0.958, MQ=0.958) | lr=0.000094
+2026-01-24 22:03:07 | INFO |
+============================================================
+Validation Results (took 7.74s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6821
+  Quality Acc: 0.6474
+  Average Acc: 0.6647
+  Total Loss: 1.7472
+  Instruction Loss: 1.5625
+  Quality Loss: 1.9319
+============================================================
+2026-01-24 22:03:07 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_999.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:03:08 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_999.pt (575.2MB)
+2026-01-24 22:03:08 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_699.pt
+2026-01-24 22:03:08 | INFO | Best 3 checkpoints:
+2026-01-24 22:03:08 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:03:08 | INFO |   2. Step 799: acc=0.6647 (reward_model.best_799.pt)
+2026-01-24 22:03:08 | INFO |   3. Step 999: acc=0.6647 (reward_model.best_999.pt)
+2026-01-24 22:03:09 | INFO | Step 1000: loss=0.1671 | IF_loss=0.1673, MQ_loss=0.1668 | acc=0.969 (IF=0.979, MQ=0.958) | lr=0.000091
+2026-01-24 22:05:04 | INFO |
+============================================================
+Validation Results (took 6.94s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6474
+  Average Acc: 0.6662
+  Total Loss: 1.7380
+  Instruction Loss: 1.5555
+  Quality Loss: 1.9205
+============================================================
+2026-01-24 22:05:04 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1099.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:05:04 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1099.pt (575.2MB)
+2026-01-24 22:05:04 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_999.pt
+2026-01-24 22:05:04 | INFO | Best 3 checkpoints:
+2026-01-24 22:05:04 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:05:04 | INFO |   2. Step 1099: acc=0.6662 (reward_model.best_1099.pt)
+2026-01-24 22:05:04 | INFO |   3. Step 799: acc=0.6647 (reward_model.best_799.pt)
+2026-01-24 22:05:05 | INFO | Step 1100: loss=0.1267 | IF_loss=0.1381, MQ_loss=0.1154 | acc=0.948 (IF=0.958, MQ=0.938) | lr=0.000089
+2026-01-24 22:07:02 | INFO |
+============================================================
+Validation Results (took 7.34s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6416
+  Average Acc: 0.6633
+  Total Loss: 1.7320
+  Instruction Loss: 1.5520
+  Quality Loss: 1.9119
+============================================================
+2026-01-24 22:07:02 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1199.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:07:03 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1199.pt (575.2MB)
+2026-01-24 22:07:03 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1199.pt
+2026-01-24 22:07:03 | INFO | Best 3 checkpoints:
+2026-01-24 22:07:03 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:07:03 | INFO |   2. Step 1099: acc=0.6662 (reward_model.best_1099.pt)
+2026-01-24 22:07:03 | INFO |   3. Step 799: acc=0.6647 (reward_model.best_799.pt)
+2026-01-24 22:07:04 | INFO | Step 1200: loss=0.1201 | IF_loss=0.1744, MQ_loss=0.0657 | acc=0.948 (IF=0.917, MQ=0.979) | lr=0.000086
+2026-01-24 22:08:59 | INFO |
+============================================================
+Validation Results (took 7.61s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6416
+  Average Acc: 0.6633
+  Total Loss: 1.7259
+  Instruction Loss: 1.5481
+  Quality Loss: 1.9036
+============================================================
+2026-01-24 22:08:59 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1299.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:09:00 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1299.pt (575.2MB)
+2026-01-24 22:09:00 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1299.pt
+2026-01-24 22:09:00 | INFO | Best 3 checkpoints:
+2026-01-24 22:09:00 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:09:00 | INFO |   2. Step 1099: acc=0.6662 (reward_model.best_1099.pt)
+2026-01-24 22:09:00 | INFO |   3. Step 799: acc=0.6647 (reward_model.best_799.pt)
+2026-01-24 22:09:01 | INFO | Step 1300: loss=0.0937 | IF_loss=0.1357, MQ_loss=0.0516 | acc=0.958 (IF=0.938, MQ=0.979) | lr=0.000083
+2026-01-24 22:10:53 | INFO |
+============================================================
+Validation Results (took 7.24s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6416
+  Average Acc: 0.6633
+  Total Loss: 1.7217
+  Instruction Loss: 1.5459
+  Quality Loss: 1.8975
+============================================================
+2026-01-24 22:10:53 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1399.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:10:54 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1399.pt (575.2MB)
+2026-01-24 22:10:54 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1399.pt
+2026-01-24 22:10:54 | INFO | Best 3 checkpoints:
+2026-01-24 22:10:54 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:10:54 | INFO |   2. Step 1099: acc=0.6662 (reward_model.best_1099.pt)
+2026-01-24 22:10:54 | INFO |   3. Step 799: acc=0.6647 (reward_model.best_799.pt)
+2026-01-24 22:10:55 | INFO | Step 1400: loss=0.0782 | IF_loss=0.1080, MQ_loss=0.0484 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000080
+2026-01-24 22:12:49 | INFO |
+============================================================
+Validation Results (took 7.28s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6416
+  Average Acc: 0.6662
+  Total Loss: 1.7182
+  Instruction Loss: 1.5441
+  Quality Loss: 1.8922
+============================================================
+2026-01-24 22:12:49 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1499.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:12:49 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1499.pt (575.2MB)
+2026-01-24 22:12:49 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_799.pt
+2026-01-24 22:12:49 | INFO | Best 3 checkpoints:
+2026-01-24 22:12:49 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:12:49 | INFO |   2. Step 1099: acc=0.6662 (reward_model.best_1099.pt)
+2026-01-24 22:12:49 | INFO |   3. Step 1499: acc=0.6662 (reward_model.best_1499.pt)
+2026-01-24 22:12:50 | INFO | Step 1500: loss=0.0699 | IF_loss=0.0703, MQ_loss=0.0695 | acc=0.979 (IF=0.979, MQ=0.979) | lr=0.000076
+2026-01-24 22:14:41 | INFO |
+============================================================
+Validation Results (took 7.76s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6416
+  Average Acc: 0.6662
+  Total Loss: 1.7151
+  Instruction Loss: 1.5435
+  Quality Loss: 1.8867
+============================================================
+2026-01-24 22:14:41 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1599.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:14:42 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1599.pt (575.2MB)
+2026-01-24 22:14:42 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1599.pt
+2026-01-24 22:14:42 | INFO | Best 3 checkpoints:
+2026-01-24 22:14:42 | INFO |   1. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:14:42 | INFO |   2. Step 1099: acc=0.6662 (reward_model.best_1099.pt)
+2026-01-24 22:14:42 | INFO |   3. Step 1499: acc=0.6662 (reward_model.best_1499.pt)
+2026-01-24 22:14:46 | INFO | Step 1600: loss=0.0346 | IF_loss=0.0421, MQ_loss=0.0272 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000072
+2026-01-24 22:16:34 | INFO |
+============================================================
+Validation Results (took 7.04s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6445
+  Average Acc: 0.6676
+  Total Loss: 1.7117
+  Instruction Loss: 1.5434
+  Quality Loss: 1.8800
+============================================================
+2026-01-24 22:16:34 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1699.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:16:35 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1699.pt (575.2MB)
+2026-01-24 22:16:35 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1499.pt
+2026-01-24 22:16:35 | INFO | Best 3 checkpoints:
+2026-01-24 22:16:35 | INFO |   1. Step 1699: acc=0.6676 (reward_model.best_1699.pt)
+2026-01-24 22:16:35 | INFO |   2. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:16:35 | INFO |   3. Step 1099: acc=0.6662 (reward_model.best_1099.pt)
+2026-01-24 22:16:36 | INFO | Step 1700: loss=0.0480 | IF_loss=0.0609, MQ_loss=0.0350 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000069
+2026-01-24 22:18:30 | INFO |
+============================================================
+Validation Results (took 7.06s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6936
+  Quality Acc: 0.6445
+  Average Acc: 0.6691
+  Total Loss: 1.7110
+  Instruction Loss: 1.5436
+  Quality Loss: 1.8783
+============================================================
+2026-01-24 22:18:30 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1799.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:18:30 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1799.pt (575.2MB)
+2026-01-24 22:18:30 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1099.pt
+2026-01-24 22:18:30 | INFO | Best 3 checkpoints:
+2026-01-24 22:18:30 | INFO |   1. Step 1799: acc=0.6691 (reward_model.best_1799.pt)
+2026-01-24 22:18:30 | INFO |   2. Step 1699: acc=0.6676 (reward_model.best_1699.pt)
+2026-01-24 22:18:30 | INFO |   3. Step 899: acc=0.6662 (reward_model.best_899.pt)
+2026-01-24 22:18:32 | INFO | Step 1800: loss=0.0316 | IF_loss=0.0473, MQ_loss=0.0159 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000065
+2026-01-24 22:20:24 | INFO |
+============================================================
+Validation Results (took 7.18s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6474
+  Average Acc: 0.6691
+  Total Loss: 1.7090
+  Instruction Loss: 1.5445
+  Quality Loss: 1.8734
+============================================================
+2026-01-24 22:20:24 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1899.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:20:25 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1899.pt (575.2MB)
+2026-01-24 22:20:25 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_899.pt
+2026-01-24 22:20:25 | INFO | Best 3 checkpoints:
+2026-01-24 22:20:25 | INFO |   1. Step 1799: acc=0.6691 (reward_model.best_1799.pt)
+2026-01-24 22:20:25 | INFO |   2. Step 1899: acc=0.6691 (reward_model.best_1899.pt)
+2026-01-24 22:20:25 | INFO |   3. Step 1699: acc=0.6676 (reward_model.best_1699.pt)
+2026-01-24 22:20:26 | INFO | Step 1900: loss=0.0415 | IF_loss=0.0539, MQ_loss=0.0290 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000061
+2026-01-24 22:22:22 | INFO |
+============================================================
+Validation Results (took 7.27s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6936
+  Quality Acc: 0.6474
+  Average Acc: 0.6705
+  Total Loss: 1.7083
+  Instruction Loss: 1.5455
+  Quality Loss: 1.8711
+============================================================
+2026-01-24 22:22:22 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1999.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:22:22 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1999.pt (575.2MB)
+2026-01-24 22:22:22 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1699.pt
+2026-01-24 22:22:22 | INFO | Best 3 checkpoints:
+2026-01-24 22:22:22 | INFO |   1. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:22:22 | INFO |   2. Step 1799: acc=0.6691 (reward_model.best_1799.pt)
+2026-01-24 22:22:22 | INFO |   3. Step 1899: acc=0.6691 (reward_model.best_1899.pt)
+2026-01-24 22:22:23 | INFO | Step 2000: loss=0.0589 | IF_loss=0.0511, MQ_loss=0.0667 | acc=0.979 (IF=0.979, MQ=0.979) | lr=0.000056
+2026-01-24 22:22:23 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.2000.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:22:24 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.2000.pt (575.2MB)
+2026-01-24 22:22:24 | INFO | Step 2000: Saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.2000.pt
+2026-01-24 22:24:18 | INFO |
+============================================================
+Validation Results (took 7.25s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6474
+  Average Acc: 0.6676
+  Total Loss: 1.7086
+  Instruction Loss: 1.5472
+  Quality Loss: 1.8700
+============================================================
+2026-01-24 22:24:18 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2099.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:24:19 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2099.pt (575.2MB)
+2026-01-24 22:24:19 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2099.pt
+2026-01-24 22:24:19 | INFO | Best 3 checkpoints:
+2026-01-24 22:24:19 | INFO |   1. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:24:19 | INFO |   2. Step 1799: acc=0.6691 (reward_model.best_1799.pt)
+2026-01-24 22:24:19 | INFO |   3. Step 1899: acc=0.6691 (reward_model.best_1899.pt)
+2026-01-24 22:24:20 | INFO | Step 2100: loss=0.0284 | IF_loss=0.0286, MQ_loss=0.0281 | acc=0.990 (IF=1.000, MQ=0.979) | lr=0.000052
+2026-01-24 22:26:12 | INFO |
+============================================================
+Validation Results (took 7.00s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7083
+  Instruction Loss: 1.5495
+  Quality Loss: 1.8672
+============================================================
+2026-01-24 22:26:12 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2199.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:26:13 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2199.pt (575.2MB)
+2026-01-24 22:26:13 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1899.pt
+2026-01-24 22:26:13 | INFO | Best 3 checkpoints:
+2026-01-24 22:26:13 | INFO |   1. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:26:13 | INFO |   2. Step 2199: acc=0.6691 (reward_model.best_2199.pt)
+2026-01-24 22:26:13 | INFO |   3. Step 1799: acc=0.6691 (reward_model.best_1799.pt)
+2026-01-24 22:26:14 | INFO | Step 2200: loss=0.0061 | IF_loss=0.0038, MQ_loss=0.0085 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000048
+2026-01-24 22:28:05 | INFO |
+============================================================
+Validation Results (took 7.64s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6532
+  Average Acc: 0.6705
+  Total Loss: 1.7088
+  Instruction Loss: 1.5525
+  Quality Loss: 1.8651
+============================================================
+2026-01-24 22:28:05 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2299.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:28:05 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2299.pt (575.2MB)
+2026-01-24 22:28:05 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1799.pt
+2026-01-24 22:28:05 | INFO | Best 3 checkpoints:
+2026-01-24 22:28:05 | INFO |   1. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:28:05 | INFO |   2. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:28:05 | INFO |   3. Step 2199: acc=0.6691 (reward_model.best_2199.pt)
+2026-01-24 22:28:06 | INFO | Step 2300: loss=0.0451 | IF_loss=0.0768, MQ_loss=0.0134 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000044
+2026-01-24 22:30:00 | INFO |
+============================================================
+Validation Results (took 7.30s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6532
+  Average Acc: 0.6720
+  Total Loss: 1.7079
+  Instruction Loss: 1.5530
+  Quality Loss: 1.8628
+============================================================
+2026-01-24 22:30:00 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2399.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:30:01 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2399.pt (575.2MB)
+2026-01-24 22:30:01 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2199.pt
+2026-01-24 22:30:01 | INFO | Best 3 checkpoints:
+2026-01-24 22:30:01 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:30:01 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:30:01 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:30:02 | INFO | Step 2400: loss=0.0141 | IF_loss=0.0160, MQ_loss=0.0122 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000039
+2026-01-24 22:31:52 | INFO |
+============================================================
+Validation Results (took 6.60s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7095
+  Instruction Loss: 1.5571
+  Quality Loss: 1.8619
+============================================================
+2026-01-24 22:31:53 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2499.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:31:53 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2499.pt (575.2MB)
+2026-01-24 22:31:53 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2499.pt
+2026-01-24 22:31:53 | INFO | Best 3 checkpoints:
+2026-01-24 22:31:53 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:31:53 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:31:53 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:31:54 | INFO | Step 2500: loss=0.0073 | IF_loss=0.0109, MQ_loss=0.0036 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000035
+2026-01-24 22:33:43 | INFO |
+============================================================
+Validation Results (took 6.93s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7093
+  Instruction Loss: 1.5586
+  Quality Loss: 1.8601
+============================================================
+2026-01-24 22:33:43 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2599.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:33:43 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2599.pt (575.2MB)
+2026-01-24 22:33:43 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2599.pt
+2026-01-24 22:33:43 | INFO | Best 3 checkpoints:
+2026-01-24 22:33:43 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:33:43 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:33:43 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:33:44 | INFO | Step 2600: loss=0.0025 | IF_loss=0.0039, MQ_loss=0.0011 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000031
+2026-01-24 22:35:39 | INFO |
+============================================================
+Validation Results (took 6.71s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7105
+  Instruction Loss: 1.5632
+  Quality Loss: 1.8577
+============================================================
+2026-01-24 22:35:39 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2699.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:35:39 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2699.pt (575.2MB)
+2026-01-24 22:35:39 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2699.pt
+2026-01-24 22:35:39 | INFO | Best 3 checkpoints:
+2026-01-24 22:35:39 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:35:39 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:35:39 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:35:40 | INFO | Step 2700: loss=0.0285 | IF_loss=0.0436, MQ_loss=0.0134 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000028
+2026-01-24 22:37:31 | INFO |
+============================================================
+Validation Results (took 7.15s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.6503
+  Average Acc: 0.6676
+  Total Loss: 1.7119
+  Instruction Loss: 1.5662
+  Quality Loss: 1.8576
+============================================================
+2026-01-24 22:37:31 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2799.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:37:32 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2799.pt (575.2MB)
+2026-01-24 22:37:32 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2799.pt
+2026-01-24 22:37:32 | INFO | Best 3 checkpoints:
+2026-01-24 22:37:32 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:37:32 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:37:32 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:37:33 | INFO | Step 2800: loss=0.0054 | IF_loss=0.0086, MQ_loss=0.0023 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000024
+2026-01-24 22:39:25 | INFO |
+============================================================
+Validation Results (took 6.52s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7105
+  Instruction Loss: 1.5670
+  Quality Loss: 1.8540
+============================================================
+2026-01-24 22:39:25 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2899.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:39:26 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2899.pt (575.2MB)
+2026-01-24 22:39:26 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2899.pt
+2026-01-24 22:39:26 | INFO | Best 3 checkpoints:
+2026-01-24 22:39:26 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:39:26 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:39:26 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:39:27 | INFO | Step 2900: loss=0.0121 | IF_loss=0.0158, MQ_loss=0.0084 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000020
+2026-01-24 22:41:17 | INFO |
+============================================================
+Validation Results (took 7.44s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7130
+  Instruction Loss: 1.5717
+  Quality Loss: 1.8543
+============================================================
+2026-01-24 22:41:17 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2999.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:41:17 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2999.pt (575.2MB)
+2026-01-24 22:41:18 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2999.pt
+2026-01-24 22:41:18 | INFO | Best 3 checkpoints:
+2026-01-24 22:41:18 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:41:18 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:41:18 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:41:19 | INFO | Step 3000: loss=0.0040 | IF_loss=0.0024, MQ_loss=0.0055 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000017
+2026-01-24 22:43:12 | INFO |
+============================================================
+Validation Results (took 6.84s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6503
+  Average Acc: 0.6705
+  Total Loss: 1.7137
+  Instruction Loss: 1.5743
+  Quality Loss: 1.8532
+============================================================
+2026-01-24 22:43:12 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3099.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:43:12 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3099.pt (575.2MB)
+2026-01-24 22:43:12 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3099.pt
+2026-01-24 22:43:12 | INFO | Best 3 checkpoints:
+2026-01-24 22:43:12 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:43:12 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:43:12 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:43:13 | INFO | Step 3100: loss=0.0095 | IF_loss=0.0161, MQ_loss=0.0029 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000014
+2026-01-24 22:45:04 | INFO |
+============================================================
+Validation Results (took 7.66s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7135
+  Instruction Loss: 1.5760
+  Quality Loss: 1.8510
+============================================================
+2026-01-24 22:45:04 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3199.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:45:04 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3199.pt (575.2MB)
+2026-01-24 22:45:04 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3199.pt
+2026-01-24 22:45:04 | INFO | Best 3 checkpoints:
+2026-01-24 22:45:04 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:45:04 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:45:04 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:45:08 | INFO | Step 3200: loss=0.0050 | IF_loss=0.0072, MQ_loss=0.0027 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000011
+2026-01-24 22:46:57 | INFO |
+============================================================
+Validation Results (took 6.84s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6503
+  Average Acc: 0.6691
+  Total Loss: 1.7154
+  Instruction Loss: 1.5809
+  Quality Loss: 1.8499
+============================================================
+2026-01-24 22:46:57 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3299.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:46:57 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3299.pt (575.2MB)
+2026-01-24 22:46:57 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3299.pt
+2026-01-24 22:46:57 | INFO | Best 3 checkpoints:
+2026-01-24 22:46:57 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:46:57 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:46:57 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:46:58 | INFO | Step 3300: loss=0.0362 | IF_loss=0.0503, MQ_loss=0.0221 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000009
+2026-01-24 22:48:50 | INFO |
+============================================================
+Validation Results (took 6.83s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6532
+  Average Acc: 0.6705
+  Total Loss: 1.7154
+  Instruction Loss: 1.5832
+  Quality Loss: 1.8477
+============================================================
+2026-01-24 22:48:50 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3399.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:48:51 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3399.pt (575.2MB)
+2026-01-24 22:48:51 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3399.pt
+2026-01-24 22:48:51 | INFO | Best 3 checkpoints:
+2026-01-24 22:48:51 | INFO |   1. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:48:51 | INFO |   2. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:48:51 | INFO |   3. Step 2299: acc=0.6705 (reward_model.best_2299.pt)
+2026-01-24 22:48:52 | INFO | Step 3400: loss=0.0082 | IF_loss=0.0113, MQ_loss=0.0051 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000006
+2026-01-24 22:50:41 | INFO |
+============================================================
+Validation Results (took 7.19s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6590
+  Average Acc: 0.6749
+  Total Loss: 1.7151
+  Instruction Loss: 1.5847
+  Quality Loss: 1.8456
+============================================================
+2026-01-24 22:50:41 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3499.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:50:41 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3499.pt (575.2MB)
+2026-01-24 22:50:41 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2299.pt
+2026-01-24 22:50:41 | INFO | Best 3 checkpoints:
+2026-01-24 22:50:41 | INFO |   1. Step 3499: acc=0.6749 (reward_model.best_3499.pt)
+2026-01-24 22:50:41 | INFO |   2. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:50:41 | INFO |   3. Step 1999: acc=0.6705 (reward_model.best_1999.pt)
+2026-01-24 22:50:42 | INFO | Step 3500: loss=0.0045 | IF_loss=0.0077, MQ_loss=0.0013 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000005
+2026-01-24 22:52:33 | INFO |
+============================================================
+Validation Results (took 7.08s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6590
+  Average Acc: 0.6734
+  Total Loss: 1.7160
+  Instruction Loss: 1.5876
+  Quality Loss: 1.8445
+============================================================
+2026-01-24 22:52:33 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3599.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:52:34 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3599.pt (575.2MB)
+2026-01-24 22:52:34 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_1999.pt
+2026-01-24 22:52:34 | INFO | Best 3 checkpoints:
+2026-01-24 22:52:34 | INFO |   1. Step 3499: acc=0.6749 (reward_model.best_3499.pt)
+2026-01-24 22:52:34 | INFO |   2. Step 3599: acc=0.6734 (reward_model.best_3599.pt)
+2026-01-24 22:52:34 | INFO |   3. Step 2399: acc=0.6720 (reward_model.best_2399.pt)
+2026-01-24 22:52:35 | INFO | Step 3600: loss=0.0126 | IF_loss=0.0220, MQ_loss=0.0031 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000003
+2026-01-24 22:54:24 | INFO |
+============================================================
+Validation Results (took 7.20s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6590
+  Average Acc: 0.6734
+  Total Loss: 1.7161
+  Instruction Loss: 1.5894
+  Quality Loss: 1.8428
+============================================================
+2026-01-24 22:54:24 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3699.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:54:24 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3699.pt (575.2MB)
+2026-01-24 22:54:24 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_2399.pt
+2026-01-24 22:54:24 | INFO | Best 3 checkpoints:
+2026-01-24 22:54:24 | INFO |   1. Step 3499: acc=0.6749 (reward_model.best_3499.pt)
+2026-01-24 22:54:24 | INFO |   2. Step 3599: acc=0.6734 (reward_model.best_3599.pt)
+2026-01-24 22:54:24 | INFO |   3. Step 3699: acc=0.6734 (reward_model.best_3699.pt)
+2026-01-24 22:54:25 | INFO | Step 3700: loss=0.0085 | IF_loss=0.0041, MQ_loss=0.0130 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000002
+2026-01-24 22:56:18 | INFO |
+============================================================
+Validation Results (took 6.85s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.6618
+  Average Acc: 0.6749
+  Total Loss: 1.7157
+  Instruction Loss: 1.5912
+  Quality Loss: 1.8403
+============================================================
+2026-01-24 22:56:18 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3799.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:56:19 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3799.pt (575.2MB)
+2026-01-24 22:56:19 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3699.pt
+2026-01-24 22:56:19 | INFO | Best 3 checkpoints:
+2026-01-24 22:56:19 | INFO |   1. Step 3499: acc=0.6749 (reward_model.best_3499.pt)
+2026-01-24 22:56:19 | INFO |   2. Step 3799: acc=0.6749 (reward_model.best_3799.pt)
+2026-01-24 22:56:19 | INFO |   3. Step 3599: acc=0.6734 (reward_model.best_3599.pt)
+2026-01-24 22:56:20 | INFO | Step 3800: loss=0.0120 | IF_loss=0.0037, MQ_loss=0.0202 | acc=0.990 (IF=1.000, MQ=0.979) | lr=0.000001
+2026-01-24 22:58:09 | INFO |
+============================================================
+Validation Results (took 7.39s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6590
+  Average Acc: 0.6749
+  Total Loss: 1.7163
+  Instruction Loss: 1.5935
+  Quality Loss: 1.8391
+============================================================
+2026-01-24 22:58:09 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3899.pt (filtered to 38.584M trainable parameters)
+2026-01-24 22:58:10 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3899.pt (575.2MB)
+2026-01-24 22:58:10 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3599.pt
+2026-01-24 22:58:10 | INFO | Best 3 checkpoints:
+2026-01-24 22:58:10 | INFO |   1. Step 3499: acc=0.6749 (reward_model.best_3499.pt)
+2026-01-24 22:58:10 | INFO |   2. Step 3799: acc=0.6749 (reward_model.best_3799.pt)
+2026-01-24 22:58:10 | INFO |   3. Step 3899: acc=0.6749 (reward_model.best_3899.pt)
+2026-01-24 22:58:11 | INFO | Step 3900: loss=0.0060 | IF_loss=0.0040, MQ_loss=0.0080 | acc=1.000 (IF=1.000, MQ=1.000) | lr=0.000000
+2026-01-24 23:00:02 | INFO |
+============================================================
+Validation Results (took 6.60s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.6590
+  Average Acc: 0.6749
+  Total Loss: 1.7165
+  Instruction Loss: 1.5967
+  Quality Loss: 1.8363
+============================================================
+2026-01-24 23:00:02 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3999.pt (filtered to 38.584M trainable parameters)
+2026-01-24 23:00:02 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3999.pt (575.2MB)
+2026-01-24 23:00:02 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2143/ckpt/reward_model.best_3999.pt
+2026-01-24 23:00:02 | INFO | Best 3 checkpoints:
+2026-01-24 23:00:02 | INFO |   1. Step 3499: acc=0.6749 (reward_model.best_3499.pt)
+2026-01-24 23:00:02 | INFO |   2. Step 3799: acc=0.6749 (reward_model.best_3799.pt)
+2026-01-24 23:00:02 | INFO |   3. Step 3899: acc=0.6749 (reward_model.best_3899.pt)
+2026-01-24 23:00:02 | INFO | Training complete!
+2026-01-24 23:00:02 | INFO | Training complete!

20260124_2354/config.yaml ADDED Viewed

	@@ -0,0 +1,142 @@

+DEVICES: '3'
+accelerate:
+  mixed_precision: bf16
+basics:
+  random_seed: 42
+  save_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model
+dataset:
+  audio_dropout:
+    apply_to_eval: false
+    apply_to_ref: true
+    enabled: true
+    eval_only_on_training: true
+    max_duration: 1500
+    min_duration: 200
+    train_mode: start
+  cache_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/tmp
+  db_path: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/backend/database.db
+  duration: 600.0
+  embedding_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/supervised_embeddings
+  max_samples: null
+  max_val_samples: null
+  metadata_jsonl: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/all_comparisons.jsonl
+  mode: raw_text_frozen_audio
+  preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/human_annotations/train.json
+  sample_rate: 24000
+  val_preference_file: null
+loss:
+  IF_ratio: 0.5
+  filter_ties: true
+  label_smoothing: 0.0
+  reduction: mean
+model:
+  attention_mode: SA
+  attn_dropout: 0.0
+  category_embeddings: null
+  dim: 768
+  dim_head: 64
+  downsample:
+    configs:
+      conv2_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv*2
+        use_layernorm: true
+      conv_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv
+        stage: 1
+        use_layernorm: true
+      glu_4x:
+        factor: 4
+        kernel_size: 5
+        kind: gluconv*2+pw
+        use_layernorm: true
+      mean:
+        factor: 2
+        kind: mean
+      mean_4x:
+        dropout: 0.0
+        factor: 30
+        kind: mean+mlp
+        mlp_ratio: 2.0
+      none:
+        factor: 1
+        kind: none
+    eval: mean_4x
+    ref: null
+    text: none
+  ff_dropout: 0.0
+  ff_mult: 4
+  freeze_audio: true
+  freeze_text: true
+  gradient_checkpointing: false
+  heads: 8
+  joint_tf_depth: 1
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+  mlp_dim: 768
+  mode: concat_text_late
+  model_name: OpenMuQ/MuQ-MuLan-large
+  name: reward
+  no_condition: false
+  null_embedding:
+    audio:
+      dropout: 0.5
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    text:
+      dropout: 0
+      length: 10
+  output_dim: 2
+  prompt_tf_depth: 4
+  sr: 24000
+  text_encoder:
+    name: muq_mulan
+    tune: null
+  text_lora_config: null
+  train_muq_depth: 0
+  train_muqmulan: false
+  use_audio: true
+  use_layer_idx: -1
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: null
+train:
+  batch_size: 48
+  betas:
+  - 0.9
+  - 0.99
+  ema_decay: 0.9999
+  ema_update_every: 1
+  enable_gradient_checkpointing: true
+  force_clear_prev_results: false
+  grad_accum_every: 1
+  log_tensorboard: true
+  lr_schedule:
+    min_lr_ratio: 0.001
+    name: linear_cosine
+    total_steps: 4000
+    warmup_steps: 10
+  max_grad_norm: 1
+  mlp_lr: 1.0e-05
+  num_train_steps: 4000
+  num_valid_batches: null
+  num_workers: 8
+  other_lr: 1.0e-05
+  resume: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.best_29999.pt
+  resume_optimizer: false
+  save_model_every: 2000
+  use_checkpoint_config: true
+  use_ema: false
+  use_lion: false
+  valid_batch_size: 20
+  valid_every: 100
+  valid_frac: 0.1
+  verify_weights_on_load: true
+validate_only: false

20260124_2354/reward_model/1769270104.0081618/events.out.tfevents.1769270104.MACLAB-S004.3211506.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1c9d6a9609c7a84c7ece1c70819976b71fcbc41491a14dc042f92c982873761
+size 503

20260124_2354/reward_model/1769270104.0091846/hparams.yml ADDED Viewed

	@@ -0,0 +1,4 @@

+batch_size: 48
+grad_accum_every: 1
+learning_rate: 1.0e-05
+num_train_steps: 4000

20260124_2354/reward_model/events.out.tfevents.1769270104.MACLAB-S004.3211506.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:202656c2b035463a9a8b723b88d4b0c93b2d50b91b2b2c0ebb10f09261494610
+size 647887

20260124_2354/train.20260124_2354.log ADDED Viewed

	@@ -0,0 +1,306 @@

+2026-01-24 23:54:55 | INFO | Log file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/train.20260124_2354.log
+2026-01-24 23:54:55 | INFO | Random seed set to 42
+2026-01-24 23:54:56 | INFO | Created RawTextFrozenAudioDataset with 3463 samples
+2026-01-24 23:54:56 | INFO | Split dataset into train (3117) and validation (346) sets (ratio: 10.00%)
+2026-01-24 23:54:56 | INFO | Will resume from checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.best_29999.pt
+2026-01-24 23:54:56 | INFO | Using checkpoint config for model initialization (continue training mode)
+2026-01-24 23:55:02 | INFO | Created RewardAttentionModel with attention_mode=SA
+2026-01-24 23:55:02 | INFO | Created PreferenceLoss with filter_ties=True
+2026-01-24 23:55:03 | INFO | ✓ Gradient checkpointing enabled
+2026-01-24 23:55:03 | INFO | ✓ Audio cropping enabled: min=200, max=1500
+2026-01-24 23:55:03 | INFO |   Apply to eval: False, ref: True
+2026-01-24 23:55:03 | INFO |   Modes: train=random, val=start
+2026-01-24 23:55:03 | INFO | MLP head parameters: 1,186,563 params, lr=1e-05
+2026-01-24 23:55:03 | INFO | Other parameters: 37,397,634 params, lr=1e-05
+2026-01-24 23:55:03 | INFO | Using lr_schedule=linear_cosine warmup_steps=10 total_steps=4000
+2026-01-24 23:55:03 | INFO | Training with fixed validation set
+2026-01-24 23:55:03 | INFO | Train batch_size: 48, Valid batch_size: 20
+2026-01-24 23:55:03 | INFO | Missing keys (782): ['text_module.model.embeddings.word_embeddings.weight', 'text_module.model.embeddings.position_embeddings.weight', 'text_module.model.embeddings.token_type_embeddings.weight', 'text_module.model.embeddings.LayerNorm.weight', 'text_module.model.embeddings.LayerNorm.bias']...
+2026-01-24 23:55:03 | INFO | ✓ Starting from step 0 (transfer learning mode, ignoring checkpoint steps=29999)
+2026-01-24 23:55:03 | INFO | Resumed from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.best_29999.pt
+2026-01-24 23:55:03 | INFO | Parameters: 701.162M total, 38.584M trainable
+2026-01-24 23:55:03 | INFO |   Text encoder (frozen): 328.389M
+2026-01-24 23:55:03 | INFO |   Audio encoder (frozen): 334.189M
+2026-01-24 23:55:03 | INFO |   Other trainable: 38.584M
+2026-01-24 23:55:03 | INFO | ℹ No LoRA configuration detected
+2026-01-24 23:55:04 | INFO | ============================================================
+2026-01-24 23:55:04 | INFO | Ready to start training
+2026-01-24 23:55:04 | INFO | ============================================================
+2026-01-24 23:55:04 | INFO | Starting training from step 0
+2026-01-24 23:55:04 | INFO | ===== Accelerator / CUDA Debug Info =====
+2026-01-24 23:55:04 | INFO | accelerator.device = cuda
+2026-01-24 23:55:04 | INFO | mixed_precision = bf16
+2026-01-24 23:55:04 | INFO | distributed_type = NO
+2026-01-24 23:55:04 | INFO | num_processes = 1
+2026-01-24 23:55:04 | INFO | process_index = 0
+2026-01-24 23:55:04 | INFO | is_main_process = True
+2026-01-24 23:55:04 | INFO | torch.cuda.is_available() = True
+2026-01-24 23:55:04 | INFO | torch.cuda.device_count() = 1
+2026-01-24 23:55:04 | INFO | current_device = 0
+2026-01-24 23:55:04 | INFO | device_name = NVIDIA GeForce RTX 4090
+2026-01-24 23:55:04 | INFO | model parameter device = cuda:0
+2026-01-24 23:55:04 | INFO | Training for 4000.0 steps (~63 epochs, 64 steps/epoch)
+2026-01-24 23:55:12 | INFO | Step 0: loss=1.8546 | IF_loss=2.4068, MQ_loss=1.3024 | acc=0.760 (IF=0.708, MQ=0.812) | lr=0.000002
+2026-01-24 23:55:12 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.0.pt (filtered to 38.584M trainable parameters)
+2026-01-24 23:55:12 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.0.pt (428.0MB)
+2026-01-24 23:55:12 | INFO | Step 0: Saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.0.pt
+2026-01-24 23:56:57 | INFO |
+============================================================
+Validation Results (took 8.49s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7052
+  Quality Acc: 0.6821
+  Average Acc: 0.6936
+  Total Loss: 1.2481
+  Instruction Loss: 1.1851
+  Quality Loss: 1.3111
+============================================================
+2026-01-24 23:56:57 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_99.pt (filtered to 38.584M trainable parameters)
+2026-01-24 23:56:57 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_99.pt (428.0MB)
+2026-01-24 23:56:57 | INFO | Best 1 checkpoints:
+2026-01-24 23:56:57 | INFO |   1. Step 99: acc=0.6936 (reward_model.best_99.pt)
+2026-01-24 23:56:58 | INFO | Step 100: loss=1.0138 | IF_loss=0.8556, MQ_loss=1.1720 | acc=0.708 (IF=0.688, MQ=0.729) | lr=0.000010
+2026-01-24 23:58:43 | INFO |
+============================================================
+Validation Results (took 6.77s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6965
+  Quality Acc: 0.7197
+  Average Acc: 0.7081
+  Total Loss: 0.7433
+  Instruction Loss: 0.7416
+  Quality Loss: 0.7450
+============================================================
+2026-01-24 23:58:44 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_199.pt (filtered to 38.584M trainable parameters)
+2026-01-24 23:58:44 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_199.pt (428.0MB)
+2026-01-24 23:58:44 | INFO | Best 2 checkpoints:
+2026-01-24 23:58:44 | INFO |   1. Step 199: acc=0.7081 (reward_model.best_199.pt)
+2026-01-24 23:58:44 | INFO |   2. Step 99: acc=0.6936 (reward_model.best_99.pt)
+2026-01-24 23:58:45 | INFO | Step 200: loss=0.4285 | IF_loss=0.4361, MQ_loss=0.4208 | acc=0.812 (IF=0.792, MQ=0.833) | lr=0.000010
+2026-01-25 00:00:32 | INFO |
+============================================================
+Validation Results (took 7.53s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7052
+  Quality Acc: 0.7514
+  Average Acc: 0.7283
+  Total Loss: 0.6484
+  Instruction Loss: 0.6697
+  Quality Loss: 0.6271
+============================================================
+2026-01-25 00:00:32 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_299.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:00:32 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_299.pt (428.0MB)
+2026-01-25 00:00:32 | INFO | Best 3 checkpoints:
+2026-01-25 00:00:32 | INFO |   1. Step 299: acc=0.7283 (reward_model.best_299.pt)
+2026-01-25 00:00:32 | INFO |   2. Step 199: acc=0.7081 (reward_model.best_199.pt)
+2026-01-25 00:00:32 | INFO |   3. Step 99: acc=0.6936 (reward_model.best_99.pt)
+2026-01-25 00:00:33 | INFO | Step 300: loss=0.3843 | IF_loss=0.4473, MQ_loss=0.3212 | acc=0.844 (IF=0.792, MQ=0.896) | lr=0.000010
+2026-01-25 00:02:21 | INFO |
+============================================================
+Validation Results (took 7.10s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6994
+  Quality Acc: 0.7399
+  Average Acc: 0.7197
+  Total Loss: 0.6475
+  Instruction Loss: 0.6784
+  Quality Loss: 0.6167
+============================================================
+2026-01-25 00:02:21 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_399.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:02:22 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_399.pt (428.0MB)
+2026-01-25 00:02:22 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_99.pt
+2026-01-25 00:02:22 | INFO | Best 3 checkpoints:
+2026-01-25 00:02:22 | INFO |   1. Step 299: acc=0.7283 (reward_model.best_299.pt)
+2026-01-25 00:02:22 | INFO |   2. Step 399: acc=0.7197 (reward_model.best_399.pt)
+2026-01-25 00:02:22 | INFO |   3. Step 199: acc=0.7081 (reward_model.best_199.pt)
+2026-01-25 00:02:23 | INFO | Step 400: loss=0.5100 | IF_loss=0.5393, MQ_loss=0.4806 | acc=0.771 (IF=0.729, MQ=0.812) | lr=0.000010
+2026-01-25 00:04:09 | INFO |
+============================================================
+Validation Results (took 7.22s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6965
+  Quality Acc: 0.7399
+  Average Acc: 0.7182
+  Total Loss: 0.6691
+  Instruction Loss: 0.7099
+  Quality Loss: 0.6283
+============================================================
+2026-01-25 00:04:09 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_499.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:04:09 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_499.pt (428.0MB)
+2026-01-25 00:04:09 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_199.pt
+2026-01-25 00:04:09 | INFO | Best 3 checkpoints:
+2026-01-25 00:04:09 | INFO |   1. Step 299: acc=0.7283 (reward_model.best_299.pt)
+2026-01-25 00:04:09 | INFO |   2. Step 399: acc=0.7197 (reward_model.best_399.pt)
+2026-01-25 00:04:09 | INFO |   3. Step 499: acc=0.7182 (reward_model.best_499.pt)
+2026-01-25 00:04:10 | INFO | Step 500: loss=0.4517 | IF_loss=0.5286, MQ_loss=0.3749 | acc=0.771 (IF=0.750, MQ=0.792) | lr=0.000010
+2026-01-25 00:06:01 | INFO |
+============================================================
+Validation Results (took 7.07s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6994
+  Quality Acc: 0.7457
+  Average Acc: 0.7225
+  Total Loss: 0.6932
+  Instruction Loss: 0.7406
+  Quality Loss: 0.6458
+============================================================
+2026-01-25 00:06:02 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_599.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:06:02 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_599.pt (428.0MB)
+2026-01-25 00:06:02 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_499.pt
+2026-01-25 00:06:02 | INFO | Best 3 checkpoints:
+2026-01-25 00:06:02 | INFO |   1. Step 299: acc=0.7283 (reward_model.best_299.pt)
+2026-01-25 00:06:02 | INFO |   2. Step 599: acc=0.7225 (reward_model.best_599.pt)
+2026-01-25 00:06:02 | INFO |   3. Step 399: acc=0.7197 (reward_model.best_399.pt)
+2026-01-25 00:06:03 | INFO | Step 600: loss=0.3738 | IF_loss=0.4063, MQ_loss=0.3414 | acc=0.854 (IF=0.854, MQ=0.854) | lr=0.000009
+2026-01-25 00:07:51 | INFO |
+============================================================
+Validation Results (took 8.06s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6965
+  Quality Acc: 0.7370
+  Average Acc: 0.7168
+  Total Loss: 0.7321
+   Loss: 0.7873
+  Quality Loss: 0.6769
+============================================================
+2026-01-25 00:07:51 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_699.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:07:51 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_699.pt (428.0MB)
+2026-01-25 00:07:51 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_699.pt
+2026-01-25 00:07:51 | INFO | Best 3 checkpoints:
+2026-01-25 00:07:51 | INFO |   1. Step 299: acc=0.7283 (reward_model.best_299.pt)
+2026-01-25 00:07:51 | INFO |   2. Step 599: acc=0.7225 (reward_model.best_599.pt)
+2026-01-25 00:07:51 | INFO |   3. Step 399: acc=0.7197 (reward_model.best_399.pt)
+2026-01-25 00:07:52 | INFO | Step 700: loss=0.2228 | IF_loss=0.2959, MQ_loss=0.1498 | acc=0.896 (IF=0.854, MQ=0.938) | lr=0.000009
+2026-01-25 00:09:41 | INFO |
+============================================================
+Validation Results (took 6.89s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6936
+  Quality Acc: 0.7341
+  Average Acc: 0.7139
+  Total Loss: 0.7643
+  Instruction Loss: 0.8224
+  Quality Loss: 0.7063
+============================================================
+2026-01-25 00:09:41 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_799.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:09:41 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_799.pt (428.0MB)
+2026-01-25 00:09:41 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_799.pt
+2026-01-25 00:09:41 | INFO | Best 3 checkpoints:
+2026-01-25 00:09:41 | INFO |   1. Step 299: acc=0.7283 (reward_model.best_299.pt)
+2026-01-25 00:09:41 | INFO |   2. Step 599: acc=0.7225 (reward_model.best_599.pt)
+2026-01-25 00:09:41 | INFO |   3. Step 399: acc=0.7197 (reward_model.best_399.pt)
+2026-01-25 00:09:42 | INFO | Step 800: loss=0.3570 | IF_loss=0.4116, MQ_loss=0.3024 | acc=0.792 (IF=0.771, MQ=0.812) | lr=0.000009
+2026-01-25 00:11:33 | INFO |
+============================================================
+Validation Results (took 6.85s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.7341
+  Average Acc: 0.7095
+  Total Loss: 0.7902
+  Instruction Loss: 0.8561
+  Quality Loss: 0.7244
+============================================================
+2026-01-25 00:11:33 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_899.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:11:33 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_899.pt (428.0MB)
+2026-01-25 00:11:33 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_899.pt
+2026-01-25 00:11:33 | INFO | Best 3 checkpoints:
+2026-01-25 00:11:33 | INFO |   1. Step 299: acc=0.7283 (reward_model.best_299.pt)
+2026-01-25 00:11:33 | INFO |   2. Step 599: acc=0.7225 (reward_model.best_599.pt)
+2026-01-25 00:11:33 | INFO |   3. Step 399: acc=0.7197 (reward_model.best_399.pt)
+2026-01-25 00:11:34 | INFO | Step 900: loss=0.2508 | IF_loss=0.2545, MQ_loss=0.2472 | acc=0.927 (IF=0.917, MQ=0.938) | lr=0.000009
+2026-01-25 00:13:21 | INFO |
+============================================================
+Validation Results (took 7.29s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.7254
+  Average Acc: 0.7081
+  Total Loss: 0.8355
+  Instruction Loss: 0.9110
+  Quality Loss: 0.7599
+============================================================
+2026-01-25 00:13:21 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_999.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:13:22 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_999.pt (428.0MB)
+2026-01-25 00:13:22 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_999.pt
+2026-01-25 00:13:22 | INFO | Best 3 checkpoints:
+2026-01-25 00:13:22 | INFO |   1. Step 299: acc=0.7283 (reward_model.best_299.pt)
+2026-01-25 00:13:22 | INFO |   2. Step 599: acc=0.7225 (reward_model.best_599.pt)
+2026-01-25 00:13:22 | INFO |   3. Step 399: acc=0.7197 (reward_model.best_399.pt)
+2026-01-25 00:13:23 | INFO | Step 1000: loss=0.2025 | IF_loss=0.1883, MQ_loss=0.2167 | acc=0.917 (IF=0.958, MQ=0.875) | lr=0.000009
+2026-01-25 00:15:12 | INFO |
+============================================================
+Validation Results (took 7.33s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6936
+  Quality Acc: 0.7312
+  Average Acc: 0.7124
+  Total Loss: 0.8744
+  Instruction Loss: 0.9563
+  Quality Loss: 0.7924
+============================================================
+2026-01-25 00:15:12 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_1099.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:15:12 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_1099.pt (428.0MB)
+2026-01-25 00:15:12 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_1099.pt
+2026-01-25 00:15:12 | INFO | Best 3 checkpoints:
+2026-01-25 00:15:12 | INFO |   1. Step 299: acc=0.7283 (reward_model.best_299.pt)
+2026-01-25 00:15:12 | INFO |   2. Step 599: acc=0.7225 (reward_model.best_599.pt)
+2026-01-25 00:15:12 | INFO |   3. Step 399: acc=0.7197 (reward_model.best_399.pt)
+2026-01-25 00:15:13 | INFO | Step 1100: loss=0.2070 | IF_loss=0.2735, MQ_loss=0.1405 | acc=0.927 (IF=0.896, MQ=0.958) | lr=0.000008
+2026-01-25 00:17:01 | INFO |
+============================================================
+Validation Results (took 7.23s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6936
+  Quality Acc: 0.7341
+  Average Acc: 0.7139
+  Total Loss: 0.9238
+  Instruction Loss: 1.0105
+  Quality Loss: 0.8370
+============================================================
+2026-01-25 00:17:01 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_1199.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:17:02 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_1199.pt (428.0MB)
+2026-01-25 00:17:02 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_1199.pt
+2026-01-25 00:17:02 | INFO | Best 3 checkpoints:
+2026-01-25 00:17:02 | INFO |   1. Step 299: acc=0.7283 (reward_model.best_299.pt)
+2026-01-25 00:17:02 | INFO |   2. Step 599: acc=0.7225 (reward_model.best_599.pt)
+2026-01-25 00:17:02 | INFO |   3. Step 399: acc=0.7197 (reward_model.best_399.pt)
+2026-01-25 00:17:03 | INFO | Step 1200: loss=0.1291 | IF_loss=0.1584, MQ_loss=0.0999 | acc=0.948 (IF=0.917, MQ=0.979) | lr=0.000008
+2026-01-25 00:18:54 | INFO |
+============================================================
+Validation Results (took 7.69s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.7225
+  Average Acc: 0.7066
+  Total Loss: 0.9501
+  Instruction Loss: 1.0487
+  Quality Loss: 0.8515
+============================================================
+2026-01-25 00:18:54 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_1299.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:18:54 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_1299.pt (428.0MB)
+2026-01-25 00:18:54 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_1299.pt
+2026-01-25 00:18:54 | INFO | Best 3 checkpoints:
+2026-01-25 00:18:54 | INFO |   1. Step 299: acc=0.7283 (reward_model.best_299.pt)
+2026-01-25 00:18:54 | INFO |   2. Step 599: acc=0.7225 (reward_model.best_599.pt)
+2026-01-25 00:18:54 | INFO |   3. Step 399: acc=0.7197 (reward_model.best_399.pt)
+2026-01-25 00:18:55 | INFO | Step 1300: loss=0.2189 | IF_loss=0.2415, MQ_loss=0.1962 | acc=0.917 (IF=0.896, MQ=0.938) | lr=0.000008
+2026-01-25 00:20:44 | INFO |
+============================================================
+Validation Results (took 7.70s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6994
+  Quality Acc: 0.7312
+  Average Acc: 0.7153
+  Total Loss: 1.0001
+  Instruction Loss: 1.1038
+  Quality Loss: 0.8963
+============================================================
+2026-01-25 00:20:44 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_1399.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:20:44 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_1399.pt (428.0MB)
+2026-01-25 00:20:44 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_2354/ckpt/reward_model.best_1399.pt
+2026-01-25 00:20:44 | INFO | Best 3 checkpoints:
+2026-01-25 00:20:44 | INFO |   1. Step 299: acc=0.7283 (reward_model.best_299.pt)
+2026-01-25 00:20:44 | INFO |   2. Step 599: acc=0.7225 (reward_model.best_599.pt)
+2026-01-25 00:20:44 | INFO |   3. Step 399: acc=0.7197 (reward_model.best_399.pt)
+2026-01-25 00:20:46 | INFO | Step 1400: loss=0.1710 | IF_loss=0.1713, MQ_loss=0.1707 | acc=0.938 (IF=0.917, MQ=0.958) | lr=0.000007

20260125_0035/config.yaml ADDED Viewed

	@@ -0,0 +1,142 @@

+DEVICES: '0'
+accelerate:
+  mixed_precision: bf16
+basics:
+  random_seed: 42
+  save_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model
+dataset:
+  audio_dropout:
+    apply_to_eval: true
+    apply_to_ref: true
+    enabled: true
+    eval_only_on_training: true
+    max_duration: 1500
+    min_duration: 200
+    train_mode: start
+  cache_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/tmp
+  db_path: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/backend/database.db
+  duration: 600.0
+  embedding_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/supervised_embeddings
+  max_samples: null
+  max_val_samples: null
+  metadata_jsonl: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/all_comparisons.jsonl
+  mode: raw_text_frozen_audio
+  preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/human_annotations/train.json
+  sample_rate: 24000
+  val_preference_file: null
+loss:
+  IF_ratio: 0.5
+  filter_ties: true
+  label_smoothing: 0.0
+  reduction: mean
+model:
+  attention_mode: SA
+  attn_dropout: 0.0
+  category_embeddings: null
+  dim: 768
+  dim_head: 64
+  downsample:
+    configs:
+      conv2_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv*2
+        use_layernorm: true
+      conv_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv
+        stage: 1
+        use_layernorm: true
+      glu_4x:
+        factor: 4
+        kernel_size: 5
+        kind: gluconv*2+pw
+        use_layernorm: true
+      mean:
+        factor: 2
+        kind: mean
+      mean_4x:
+        dropout: 0.0
+        factor: 30
+        kind: mean+mlp
+        mlp_ratio: 2.0
+      none:
+        factor: 1
+        kind: none
+    eval: mean_4x
+    ref: null
+    text: none
+  ff_dropout: 0.0
+  ff_mult: 4
+  freeze_audio: true
+  freeze_text: true
+  gradient_checkpointing: false
+  heads: 8
+  joint_tf_depth: 1
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+  mlp_dim: 768
+  mode: concat_text_late
+  model_name: OpenMuQ/MuQ-MuLan-large
+  name: reward
+  no_condition: false
+  null_embedding:
+    audio:
+      dropout: 0.5
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    text:
+      dropout: 0
+      length: 10
+  output_dim: 2
+  prompt_tf_depth: 4
+  sr: 24000
+  text_encoder:
+    name: muq_mulan
+    tune: null
+  text_lora_config: null
+  train_muq_depth: 0
+  train_muqmulan: false
+  use_audio: true
+  use_layer_idx: -1
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: null
+train:
+  batch_size: 48
+  betas:
+  - 0.9
+  - 0.99
+  ema_decay: 0.9999
+  ema_update_every: 1
+  enable_gradient_checkpointing: true
+  force_clear_prev_results: false
+  grad_accum_every: 1
+  log_tensorboard: true
+  lr_schedule:
+    min_lr_ratio: 0.001
+    name: linear_cosine
+    total_steps: 2000
+    warmup_steps: 10
+  max_grad_norm: 1
+  mlp_lr: 1.0e-05
+  num_train_steps: 2000
+  num_valid_batches: null
+  num_workers: 8
+  other_lr: 1.0e-05
+  resume: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.8000.pt
+  resume_optimizer: false
+  save_model_every: 2000
+  use_checkpoint_config: true
+  use_ema: false
+  use_lion: false
+  valid_batch_size: 20
+  valid_every: 100
+  valid_frac: 0.1
+  verify_weights_on_load: true
+validate_only: false

20260125_0035/reward_model/1769272544.7198617/events.out.tfevents.1769272544.MACLAB-S004.3403711.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e5b60b1838c4e344cf6890b2bdce509325a24d7cb04497d228623da81ae0116
+size 503

20260125_0035/reward_model/1769272544.7213397/hparams.yml ADDED Viewed

	@@ -0,0 +1,4 @@

+batch_size: 48
+grad_accum_every: 1
+learning_rate: 1.0e-05
+num_train_steps: 2000

20260125_0035/reward_model/events.out.tfevents.1769272544.MACLAB-S004.3403711.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d068740b9c57c21acd78084f3e19ca1c6abadd2922a09126bbb46b8e1f5f7901
+size 873949

20260125_0035/train.20260125_0035.log ADDED Viewed

	@@ -0,0 +1,421 @@

+2026-01-25 00:35:33 | INFO | Log file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/train.20260125_0035.log
+2026-01-25 00:35:33 | INFO | Random seed set to 42
+2026-01-25 00:35:35 | INFO | Created RawTextFrozenAudioDataset with 3463 samples
+2026-01-25 00:35:35 | INFO | Split dataset into train (3117) and validation (346) sets (ratio: 10.00%)
+2026-01-25 00:35:35 | INFO | Will resume from checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.8000.pt
+2026-01-25 00:35:35 | INFO | Using checkpoint config for model initialization (continue training mode)
+2026-01-25 00:35:42 | INFO | Created RewardAttentionModel with attention_mode=SA
+2026-01-25 00:35:42 | INFO | Created PreferenceLoss with filter_ties=True
+2026-01-25 00:35:42 | INFO | ✓ Gradient checkpointing enabled
+2026-01-25 00:35:42 | INFO | ✓ Audio cropping enabled: min=200, max=1500
+2026-01-25 00:35:42 | INFO |   Apply to eval: True, ref: True
+2026-01-25 00:35:42 | INFO |   Modes: train=random, val=start
+2026-01-25 00:35:42 | INFO | MLP head parameters: 1,186,563 params, lr=1e-05
+2026-01-25 00:35:42 | INFO | Other parameters: 37,397,634 params, lr=1e-05
+2026-01-25 00:35:42 | INFO | Using lr_schedule=linear_cosine warmup_steps=10 total_steps=2000
+2026-01-25 00:35:42 | INFO | Training with fixed validation set
+2026-01-25 00:35:42 | INFO | Train batch_size: 48, Valid batch_size: 20
+2026-01-25 00:35:44 | INFO | Missing keys (782): ['text_module.model.embeddings.word_embeddings.weight', 'text_module.model.embeddings.position_embeddings.weight', 'text_module.model.embeddings.token_type_embeddings.weight', 'text_module.model.embeddings.LayerNorm.weight', 'text_module.model.embeddings.LayerNorm.bias']...
+2026-01-25 00:35:44 | INFO | ✓ Starting from step 0 (transfer learning mode, ignoring checkpoint steps=8000)
+2026-01-25 00:35:44 | INFO | Resumed from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.8000.pt
+2026-01-25 00:35:44 | INFO | Parameters: 701.162M total, 38.584M trainable
+2026-01-25 00:35:44 | INFO |   Text encoder (frozen): 328.389M
+2026-01-25 00:35:44 | INFO |   Audio encoder (frozen): 334.189M
+2026-01-25 00:35:44 | INFO |   Other trainable: 38.584M
+2026-01-25 00:35:44 | INFO | ℹ No LoRA configuration detected
+2026-01-25 00:35:44 | INFO | ============================================================
+2026-01-25 00:35:44 | INFO | Ready to start training
+2026-01-25 00:35:44 | INFO | ============================================================
+2026-01-25 00:35:44 | INFO | Starting training from step 0
+2026-01-25 00:35:44 | INFO | ===== Accelerator / CUDA Debug Info =====
+2026-01-25 00:35:44 | INFO | accelerator.device = cuda
+2026-01-25 00:35:44 | INFO | mixed_precision = bf16
+2026-01-25 00:35:44 | INFO | distributed_type = NO
+2026-01-25 00:35:44 | INFO | num_processes = 1
+2026-01-25 00:35:44 | INFO | process_index = 0
+2026-01-25 00:35:44 | INFO | is_main_process = True
+2026-01-25 00:35:44 | INFO | torch.cuda.is_available() = True
+2026-01-25 00:35:44 | INFO | torch.cuda.device_count() = 1
+2026-01-25 00:35:44 | INFO | current_device = 0
+2026-01-25 00:35:44 | INFO | device_name = NVIDIA GeForce RTX 4090
+2026-01-25 00:35:44 | INFO | model parameter device = cuda:0
+2026-01-25 00:35:44 | INFO | Training for 2000.0 steps (~32 epochs, 64 steps/epoch)
+2026-01-25 00:35:52 | INFO | Step 0: loss=0.7688 | IF_loss=0.9857, MQ_loss=0.5519 | acc=0.729 (IF=0.688, MQ=0.771) | lr=0.000002
+2026-01-25 00:35:52 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.0.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:35:53 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.0.pt (428.0MB)
+2026-01-25 00:35:53 | INFO | Step 0: Saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.0.pt
+2026-01-25 00:37:35 | INFO |
+============================================================
+Validation Results (took 8.15s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7052
+  Quality Acc: 0.7052
+  Average Acc: 0.7052
+  Total Loss: 0.6842
+  Instruction Loss: 0.6988
+  Quality Loss: 0.6695
+============================================================
+2026-01-25 00:37:36 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_99.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:37:36 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_99.pt (428.0MB)
+2026-01-25 00:37:36 | INFO | Best 1 checkpoints:
+2026-01-25 00:37:36 | INFO |   1. Step 99: acc=0.7052 (reward_model.best_99.pt)
+2026-01-25 00:37:37 | INFO | Step 100: loss=0.5884 | IF_loss=0.5924, MQ_loss=0.5843 | acc=0.688 (IF=0.646, MQ=0.729) | lr=0.000010
+2026-01-25 00:39:28 | INFO |
+============================================================
+Validation Results (took 9.30s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7197
+  Quality Acc: 0.7457
+  Average Acc: 0.7327
+  Total Loss: 0.6014
+  Instruction Loss: 0.6253
+  Quality Loss: 0.5774
+============================================================
+2026-01-25 00:39:28 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_199.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:39:28 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_199.pt (428.0MB)
+2026-01-25 00:39:28 | INFO | Best 2 checkpoints:
+2026-01-25 00:39:28 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 00:39:28 | INFO |   2. Step 99: acc=0.7052 (reward_model.best_99.pt)
+2026-01-25 00:39:29 | INFO | Step 200: loss=0.3779 | IF_loss=0.3349, MQ_loss=0.4209 | acc=0.844 (IF=0.896, MQ=0.792) | lr=0.000010
+2026-01-25 00:41:19 | INFO |
+============================================================
+Validation Results (took 7.41s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7110
+  Quality Acc: 0.7514
+  Average Acc: 0.7312
+  Total Loss: 0.5899
+  Instruction Loss: 0.6186
+  Quality Loss: 0.5612
+============================================================
+2026-01-25 00:41:19 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_299.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:41:19 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_299.pt (428.0MB)
+2026-01-25 00:41:19 | INFO | Best 3 checkpoints:
+2026-01-25 00:41:19 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 00:41:19 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 00:41:19 | INFO |   3. Step 99: acc=0.7052 (reward_model.best_99.pt)
+2026-01-25 00:41:20 | INFO | Step 300: loss=0.3940 | IF_loss=0.4496, MQ_loss=0.3384 | acc=0.802 (IF=0.792, MQ=0.812) | lr=0.000009
+2026-01-25 00:43:18 | INFO |
+============================================================
+Validation Results (took 8.84s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7168
+  Quality Acc: 0.7399
+  Average Acc: 0.7283
+  Total Loss: 0.5863
+  Instruction Loss: 0.6144
+  Quality Loss: 0.5582
+============================================================
+2026-01-25 00:43:18 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_399.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:43:18 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_399.pt (428.0MB)
+2026-01-25 00:43:18 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_99.pt
+2026-01-25 00:43:18 | INFO | Best 3 checkpoints:
+2026-01-25 00:43:18 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 00:43:18 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 00:43:18 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 00:43:19 | INFO | Step 400: loss=0.5238 | IF_loss=0.5729, MQ_loss=0.4747 | acc=0.771 (IF=0.708, MQ=0.833) | lr=0.000009
+2026-01-25 00:45:10 | INFO |
+============================================================
+Validation Results (took 7.63s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7052
+  Quality Acc: 0.7428
+  Average Acc: 0.7240
+  Total Loss: 0.5915
+  Instruction Loss: 0.6221
+  Quality Loss: 0.5608
+============================================================
+2026-01-25 00:45:10 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_499.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:45:10 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_499.pt (428.0MB)
+2026-01-25 00:45:10 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_499.pt
+2026-01-25 00:45:10 | INFO | Best 3 checkpoints:
+2026-01-25 00:45:10 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 00:45:10 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 00:45:10 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 00:45:11 | INFO | Step 500: loss=0.4478 | IF_loss=0.4706, MQ_loss=0.4250 | acc=0.760 (IF=0.792, MQ=0.729) | lr=0.000009
+2026-01-25 00:47:06 | INFO |
+============================================================
+Validation Results (took 8.13s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6994
+  Quality Acc: 0.7486
+  Average Acc: 0.7240
+  Total Loss: 0.5893
+  Instruction Loss: 0.6203
+  Quality Loss: 0.5584
+============================================================
+2026-01-25 00:47:06 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_599.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:47:06 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_599.pt (428.0MB)
+2026-01-25 00:47:06 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_599.pt
+2026-01-25 00:47:06 | INFO | Best 3 checkpoints:
+2026-01-25 00:47:06 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 00:47:06 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 00:47:06 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 00:47:08 | INFO | Step 600: loss=0.4813 | IF_loss=0.4879, MQ_loss=0.4747 | acc=0.802 (IF=0.792, MQ=0.812) | lr=0.000008
+2026-01-25 00:49:00 | INFO |
+============================================================
+Validation Results (took 7.74s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7023
+  Quality Acc: 0.7486
+  Average Acc: 0.7254
+  Total Loss: 0.5964
+  Instruction Loss: 0.6307
+  Quality Loss: 0.5621
+============================================================
+2026-01-25 00:49:00 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_699.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:49:00 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_699.pt (428.0MB)
+2026-01-25 00:49:00 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_699.pt
+2026-01-25 00:49:00 | INFO | Best 3 checkpoints:
+2026-01-25 00:49:00 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 00:49:00 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 00:49:00 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 00:49:01 | INFO | Step 700: loss=0.2444 | IF_loss=0.3514, MQ_loss=0.1374 | acc=0.927 (IF=0.896, MQ=0.958) | lr=0.000007
+2026-01-25 00:51:03 | INFO |
+============================================================
+Validation Results (took 8.47s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7023
+  Quality Acc: 0.7457
+  Average Acc: 0.7240
+  Total Loss: 0.6049
+  Instruction Loss: 0.6406
+  Quality Loss: 0.5693
+============================================================
+2026-01-25 00:51:03 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_799.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:51:03 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_799.pt (428.0MB)
+2026-01-25 00:51:03 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_799.pt
+2026-01-25 00:51:03 | INFO | Best 3 checkpoints:
+2026-01-25 00:51:03 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 00:51:03 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 00:51:03 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 00:51:04 | INFO | Step 800: loss=0.4378 | IF_loss=0.5861, MQ_loss=0.2894 | acc=0.729 (IF=0.625, MQ=0.833) | lr=0.000007
+2026-01-25 00:53:00 | INFO |
+============================================================
+Validation Results (took 7.86s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7023
+  Quality Acc: 0.7543
+  Average Acc: 0.7283
+  Total Loss: 0.6092
+  Instruction Loss: 0.6455
+  Quality Loss: 0.5729
+============================================================
+2026-01-25 00:53:00 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_899.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:53:00 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_899.pt (428.0MB)
+2026-01-25 00:53:00 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_899.pt
+2026-01-25 00:53:00 | INFO | Best 3 checkpoints:
+2026-01-25 00:53:00 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 00:53:00 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 00:53:00 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 00:53:01 | INFO | Step 900: loss=0.4075 | IF_loss=0.4561, MQ_loss=0.3589 | acc=0.771 (IF=0.750, MQ=0.792) | lr=0.000006
+2026-01-25 00:54:54 | INFO |
+============================================================
+Validation Results (took 8.39s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6936
+  Quality Acc: 0.7543
+  Average Acc: 0.7240
+  Total Loss: 0.6166
+  Instruction Loss: 0.6537
+  Quality Loss: 0.5795
+============================================================
+2026-01-25 00:54:54 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_999.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:54:55 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_999.pt (428.0MB)
+2026-01-25 00:54:55 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_999.pt
+2026-01-25 00:54:55 | INFO | Best 3 checkpoints:
+2026-01-25 00:54:55 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 00:54:55 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 00:54:55 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 00:54:56 | INFO | Step 1000: loss=0.3655 | IF_loss=0.3244, MQ_loss=0.4067 | acc=0.823 (IF=0.833, MQ=0.812) | lr=0.000005
+2026-01-25 00:56:54 | INFO |
+============================================================
+Validation Results (took 7.77s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6994
+  Quality Acc: 0.7514
+  Average Acc: 0.7254
+  Total Loss: 0.6242
+  Instruction Loss: 0.6619
+  Quality Loss: 0.5864
+============================================================
+2026-01-25 00:56:54 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1099.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:56:54 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1099.pt (428.0MB)
+2026-01-25 00:56:54 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1099.pt
+2026-01-25 00:56:54 | INFO | Best 3 checkpoints:
+2026-01-25 00:56:54 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 00:56:54 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 00:56:54 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 00:56:55 | INFO | Step 1100: loss=0.3254 | IF_loss=0.3815, MQ_loss=0.2692 | acc=0.865 (IF=0.854, MQ=0.875) | lr=0.000004
+2026-01-25 00:58:51 | INFO |
+============================================================
+Validation Results (took 8.71s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6965
+  Quality Acc: 0.7514
+  Average Acc: 0.7240
+  Total Loss: 0.6286
+  Instruction Loss: 0.6684
+  Quality Loss: 0.5887
+============================================================
+2026-01-25 00:58:51 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1199.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:58:52 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1199.pt (428.0MB)
+2026-01-25 00:58:52 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1199.pt
+2026-01-25 00:58:52 | INFO | Best 3 checkpoints:
+2026-01-25 00:58:52 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 00:58:52 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 00:58:52 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 00:58:53 | INFO | Step 1200: loss=0.2899 | IF_loss=0.3551, MQ_loss=0.2248 | acc=0.823 (IF=0.750, MQ=0.896) | lr=0.000003
+2026-01-25 01:00:48 | INFO |
+============================================================
+Validation Results (took 7.62s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6965
+  Quality Acc: 0.7543
+  Average Acc: 0.7254
+  Total Loss: 0.6329
+  Instruction Loss: 0.6736
+  Quality Loss: 0.5922
+============================================================
+2026-01-25 01:00:48 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1299.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:00:48 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1299.pt (428.0MB)
+2026-01-25 01:00:48 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1299.pt
+2026-01-25 01:00:48 | INFO | Best 3 checkpoints:
+2026-01-25 01:00:48 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 01:00:48 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 01:00:48 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 01:00:49 | INFO | Step 1300: loss=0.3270 | IF_loss=0.3120, MQ_loss=0.3420 | acc=0.875 (IF=0.917, MQ=0.833) | lr=0.000003
+2026-01-25 01:02:37 | INFO |
+============================================================
+Validation Results (took 6.98s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6994
+  Quality Acc: 0.7514
+  Average Acc: 0.7254
+  Total Loss: 0.6344
+  Instruction Loss: 0.6752
+  Quality Loss: 0.5936
+============================================================
+2026-01-25 01:02:37 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1399.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:02:38 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1399.pt (428.0MB)
+2026-01-25 01:02:38 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1399.pt
+2026-01-25 01:02:38 | INFO | Best 3 checkpoints:
+2026-01-25 01:02:38 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 01:02:38 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 01:02:38 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 01:02:39 | INFO | Step 1400: loss=0.3501 | IF_loss=0.4404, MQ_loss=0.2599 | acc=0.854 (IF=0.812, MQ=0.896) | lr=0.000002
+2026-01-25 01:04:28 | INFO |
+============================================================
+Validation Results (took 7.15s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6965
+  Quality Acc: 0.7514
+  Average Acc: 0.7240
+  Total Loss: 0.6387
+  Instruction Loss: 0.6798
+  Quality Loss: 0.5976
+============================================================
+2026-01-25 01:04:28 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1499.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:04:29 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1499.pt (428.0MB)
+2026-01-25 01:04:29 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1499.pt
+2026-01-25 01:04:29 | INFO | Best 3 checkpoints:
+2026-01-25 01:04:29 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 01:04:29 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 01:04:29 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 01:04:30 | INFO | Step 1500: loss=0.2991 | IF_loss=0.3190, MQ_loss=0.2793 | acc=0.833 (IF=0.833, MQ=0.833) | lr=0.000001
+2026-01-25 01:06:20 | INFO |
+============================================================
+Validation Results (took 7.69s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6994
+  Quality Acc: 0.7514
+  Average Acc: 0.7254
+  Total Loss: 0.6398
+  Instruction Loss: 0.6813
+  Quality Loss: 0.5983
+============================================================
+2026-01-25 01:06:21 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1599.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:06:21 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1599.pt (428.0MB)
+2026-01-25 01:06:21 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1599.pt
+2026-01-25 01:06:21 | INFO | Best 3 checkpoints:
+2026-01-25 01:06:21 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 01:06:21 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 01:06:21 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 01:06:25 | INFO | Step 1600: loss=0.2735 | IF_loss=0.3038, MQ_loss=0.2432 | acc=0.906 (IF=0.875, MQ=0.938) | lr=0.000001
+2026-01-25 01:08:16 | INFO |
+============================================================
+Validation Results (took 7.81s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6994
+  Quality Acc: 0.7514
+  Average Acc: 0.7254
+  Total Loss: 0.6407
+  Instruction Loss: 0.6825
+  Quality Loss: 0.5989
+============================================================
+2026-01-25 01:08:16 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1699.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:08:16 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1699.pt (428.0MB)
+2026-01-25 01:08:16 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1699.pt
+2026-01-25 01:08:16 | INFO | Best 3 checkpoints:
+2026-01-25 01:08:16 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 01:08:16 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 01:08:16 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 01:08:17 | INFO | Step 1700: loss=0.3877 | IF_loss=0.2611, MQ_loss=0.5142 | acc=0.771 (IF=0.896, MQ=0.646) | lr=0.000001
+2026-01-25 01:10:15 | INFO |
+============================================================
+Validation Results (took 7.66s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6994
+  Quality Acc: 0.7514
+  Average Acc: 0.7254
+  Total Loss: 0.6421
+  Instruction Loss: 0.6844
+  Quality Loss: 0.5999
+============================================================
+2026-01-25 01:10:15 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1799.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:10:15 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1799.pt (428.0MB)
+2026-01-25 01:10:15 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1799.pt
+2026-01-25 01:10:15 | INFO | Best 3 checkpoints:
+2026-01-25 01:10:15 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 01:10:15 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 01:10:15 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 01:10:16 | INFO | Step 1800: loss=0.2445 | IF_loss=0.2773, MQ_loss=0.2117 | acc=0.896 (IF=0.854, MQ=0.938) | lr=0.000000
+2026-01-25 01:12:06 | INFO |
+============================================================
+Validation Results (took 7.71s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6994
+  Quality Acc: 0.7514
+  Average Acc: 0.7254
+  Total Loss: 0.6428
+  Instruction Loss: 0.6848
+  Quality Loss: 0.6007
+============================================================
+2026-01-25 01:12:06 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1899.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:12:06 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1899.pt (428.0MB)
+2026-01-25 01:12:06 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1899.pt
+2026-01-25 01:12:06 | INFO | Best 3 checkpoints:
+2026-01-25 01:12:06 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 01:12:06 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 01:12:06 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 01:12:07 | INFO | Step 1900: loss=0.2576 | IF_loss=0.2896, MQ_loss=0.2257 | acc=0.833 (IF=0.771, MQ=0.896) | lr=0.000000
+2026-01-25 01:14:00 | INFO |
+============================================================
+Validation Results (took 7.55s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6994
+  Quality Acc: 0.7514
+  Average Acc: 0.7254
+  Total Loss: 0.6428
+  Instruction Loss: 0.6847
+  Quality Loss: 0.6010
+============================================================
+2026-01-25 01:14:00 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1999.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:14:00 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1999.pt (428.0MB)
+2026-01-25 01:14:00 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0035/ckpt/reward_model.best_1999.pt
+2026-01-25 01:14:00 | INFO | Best 3 checkpoints:
+2026-01-25 01:14:00 | INFO |   1. Step 199: acc=0.7327 (reward_model.best_199.pt)
+2026-01-25 01:14:00 | INFO |   2. Step 299: acc=0.7312 (reward_model.best_299.pt)
+2026-01-25 01:14:00 | INFO |   3. Step 399: acc=0.7283 (reward_model.best_399.pt)
+2026-01-25 01:14:00 | INFO | Training complete!
+2026-01-25 01:14:00 | INFO | Training complete!

20260125_0037/config.yaml ADDED Viewed

	@@ -0,0 +1,142 @@

+DEVICES: '1'
+accelerate:
+  mixed_precision: bf16
+basics:
+  random_seed: 42
+  save_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model
+dataset:
+  audio_dropout:
+    apply_to_eval: true
+    apply_to_ref: true
+    enabled: true
+    eval_only_on_training: true
+    max_duration: 1500
+    min_duration: 200
+    train_mode: start
+  cache_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/tmp
+  db_path: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/backend/database.db
+  duration: 600.0
+  embedding_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/supervised_embeddings
+  max_samples: null
+  max_val_samples: null
+  metadata_jsonl: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/all_comparisons.jsonl
+  mode: raw_text_frozen_audio
+  preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/human_annotations/train.json
+  sample_rate: 24000
+  val_preference_file: null
+loss:
+  IF_ratio: 0.5
+  filter_ties: true
+  label_smoothing: 0.0
+  reduction: mean
+model:
+  attention_mode: SA
+  attn_dropout: 0.0
+  category_embeddings: null
+  dim: 768
+  dim_head: 64
+  downsample:
+    configs:
+      conv2_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv*2
+        use_layernorm: true
+      conv_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv
+        stage: 1
+        use_layernorm: true
+      glu_4x:
+        factor: 4
+        kernel_size: 5
+        kind: gluconv*2+pw
+        use_layernorm: true
+      mean:
+        factor: 2
+        kind: mean
+      mean_4x:
+        dropout: 0.0
+        factor: 30
+        kind: mean+mlp
+        mlp_ratio: 2.0
+      none:
+        factor: 1
+        kind: none
+    eval: mean_4x
+    ref: null
+    text: none
+  ff_dropout: 0.0
+  ff_mult: 4
+  freeze_audio: true
+  freeze_text: true
+  gradient_checkpointing: false
+  heads: 8
+  joint_tf_depth: 1
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+  mlp_dim: 768
+  mode: concat_text_late
+  model_name: OpenMuQ/MuQ-MuLan-large
+  name: reward
+  no_condition: false
+  null_embedding:
+    audio:
+      dropout: 0.5
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    text:
+      dropout: 0
+      length: 10
+  output_dim: 2
+  prompt_tf_depth: 4
+  sr: 24000
+  text_encoder:
+    name: muq_mulan
+    tune: null
+  text_lora_config: null
+  train_muq_depth: 0
+  train_muqmulan: false
+  use_audio: true
+  use_layer_idx: -1
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: null
+train:
+  batch_size: 48
+  betas:
+  - 0.9
+  - 0.99
+  ema_decay: 0.9999
+  ema_update_every: 1
+  enable_gradient_checkpointing: true
+  force_clear_prev_results: false
+  grad_accum_every: 1
+  log_tensorboard: true
+  lr_schedule:
+    min_lr_ratio: 0.001
+    name: linear_cosine
+    total_steps: 2000
+    warmup_steps: 10
+  max_grad_norm: 1
+  mlp_lr: 1.0e-05
+  num_train_steps: 2000
+  num_valid_batches: null
+  num_workers: 8
+  other_lr: 1.0e-05
+  resume: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.0.pt
+  resume_optimizer: false
+  save_model_every: 2000
+  use_checkpoint_config: true
+  use_ema: false
+  use_lion: false
+  valid_batch_size: 20
+  valid_every: 100
+  valid_frac: 0.1
+  verify_weights_on_load: true
+validate_only: false

20260125_0037/eval_results_0125_1713.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

20260125_0037/reward_model/1769272678.832529/events.out.tfevents.1769272678.MACLAB-S004.3414271.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b803b753ca1da01eb8873ce114173c51f03c97c09a2bf8250935c19916c7993
+size 503

20260125_0037/reward_model/1769272678.8337765/hparams.yml ADDED Viewed

	@@ -0,0 +1,4 @@

+batch_size: 48
+grad_accum_every: 1
+learning_rate: 1.0e-05
+num_train_steps: 2000

20260125_0037/reward_model/events.out.tfevents.1769272678.MACLAB-S004.3414271.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da51cc565d6934666cc50ed6ca2621a2ab35e5035a94a17869931f3b323adb3e
+size 873949

20260125_0037/train.20260125_0037.log ADDED Viewed

	@@ -0,0 +1,421 @@

+2026-01-25 00:37:47 | INFO | Log file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/train.20260125_0037.log
+2026-01-25 00:37:47 | INFO | Random seed set to 42
+2026-01-25 00:37:49 | INFO | Created RawTextFrozenAudioDataset with 3463 samples
+2026-01-25 00:37:49 | INFO | Split dataset into train (3117) and validation (346) sets (ratio: 10.00%)
+2026-01-25 00:37:49 | INFO | Will resume from checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.0.pt
+2026-01-25 00:37:49 | INFO | Using checkpoint config for model initialization (continue training mode)
+2026-01-25 00:37:55 | INFO | Created RewardAttentionModel with attention_mode=SA
+2026-01-25 00:37:55 | INFO | Created PreferenceLoss with filter_ties=True
+2026-01-25 00:37:56 | INFO | ✓ Gradient checkpointing enabled
+2026-01-25 00:37:56 | INFO | ✓ Audio cropping enabled: min=200, max=1500
+2026-01-25 00:37:56 | INFO |   Apply to eval: True, ref: True
+2026-01-25 00:37:56 | INFO |   Modes: train=random, val=start
+2026-01-25 00:37:56 | INFO | MLP head parameters: 1,186,563 params, lr=1e-05
+2026-01-25 00:37:56 | INFO | Other parameters: 37,397,634 params, lr=1e-05
+2026-01-25 00:37:56 | INFO | Using lr_schedule=linear_cosine warmup_steps=10 total_steps=2000
+2026-01-25 00:37:56 | INFO | Training with fixed validation set
+2026-01-25 00:37:56 | INFO | Train batch_size: 48, Valid batch_size: 20
+2026-01-25 00:37:58 | INFO | Missing keys (782): ['text_module.model.embeddings.word_embeddings.weight', 'text_module.model.embeddings.position_embeddings.weight', 'text_module.model.embeddings.token_type_embeddings.weight', 'text_module.model.embeddings.LayerNorm.weight', 'text_module.model.embeddings.LayerNorm.bias']...
+2026-01-25 00:37:58 | INFO | ✓ Starting from step 0 (transfer learning mode, ignoring checkpoint steps=0)
+2026-01-25 00:37:58 | INFO | Resumed from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.0.pt
+2026-01-25 00:37:58 | INFO | Parameters: 701.162M total, 38.584M trainable
+2026-01-25 00:37:58 | INFO |   Text encoder (frozen): 328.389M
+2026-01-25 00:37:58 | INFO |   Audio encoder (frozen): 334.189M
+2026-01-25 00:37:58 | INFO |   Other trainable: 38.584M
+2026-01-25 00:37:58 | INFO | ℹ No LoRA configuration detected
+2026-01-25 00:37:58 | INFO | ============================================================
+2026-01-25 00:37:58 | INFO | Ready to start training
+2026-01-25 00:37:58 | INFO | ============================================================
+2026-01-25 00:37:58 | INFO | Starting training from step 0
+2026-01-25 00:37:58 | INFO | ===== Accelerator / CUDA Debug Info =====
+2026-01-25 00:37:58 | INFO | accelerator.device = cuda
+2026-01-25 00:37:58 | INFO | mixed_precision = bf16
+2026-01-25 00:37:58 | INFO | distributed_type = NO
+2026-01-25 00:37:58 | INFO | num_processes = 1
+2026-01-25 00:37:58 | INFO | process_index = 0
+2026-01-25 00:37:58 | INFO | is_main_process = True
+2026-01-25 00:37:58 | INFO | torch.cuda.is_available() = True
+2026-01-25 00:37:58 | INFO | torch.cuda.device_count() = 1
+2026-01-25 00:37:58 | INFO | current_device = 0
+2026-01-25 00:37:58 | INFO | device_name = NVIDIA GeForce RTX 4090
+2026-01-25 00:37:58 | INFO | model parameter device = cuda:0
+2026-01-25 00:37:58 | INFO | Training for 2000.0 steps (~32 epochs, 64 steps/epoch)
+2026-01-25 00:38:08 | INFO | Step 0: loss=0.6973 | IF_loss=0.6935, MQ_loss=0.7010 | acc=0.510 (IF=0.521, MQ=0.500) | lr=0.000002
+2026-01-25 00:38:09 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.0.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:38:09 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.0.pt (428.0MB)
+2026-01-25 00:38:09 | INFO | Step 0: Saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.0.pt
+2026-01-25 00:40:04 | INFO |
+============================================================
+Validation Results (took 11.05s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6416
+  Quality Acc: 0.7312
+  Average Acc: 0.6864
+  Total Loss: 0.5721
+  Instruction Loss: 0.6193
+  Quality Loss: 0.5249
+============================================================
+2026-01-25 00:40:04 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_99.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:40:04 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_99.pt (428.0MB)
+2026-01-25 00:40:04 | INFO | Best 1 checkpoints:
+2026-01-25 00:40:04 | INFO |   1. Step 99: acc=0.6864 (reward_model.best_99.pt)
+2026-01-25 00:40:05 | INFO | Step 100: loss=0.5208 | IF_loss=0.5649, MQ_loss=0.4766 | acc=0.740 (IF=0.708, MQ=0.771) | lr=0.000010
+2026-01-25 00:42:11 | INFO |
+============================================================
+Validation Results (took 11.25s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6705
+  Quality Acc: 0.7225
+  Average Acc: 0.6965
+  Total Loss: 0.5544
+  Instruction Loss: 0.5969
+  Quality Loss: 0.5120
+============================================================
+2026-01-25 00:42:11 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_199.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:42:12 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_199.pt (428.0MB)
+2026-01-25 00:42:12 | INFO | Best 2 checkpoints:
+2026-01-25 00:42:12 | INFO |   1. Step 199: acc=0.6965 (reward_model.best_199.pt)
+2026-01-25 00:42:12 | INFO |   2. Step 99: acc=0.6864 (reward_model.best_99.pt)
+2026-01-25 00:42:13 | INFO | Step 200: loss=0.3984 | IF_loss=0.4045, MQ_loss=0.3923 | acc=0.823 (IF=0.812, MQ=0.833) | lr=0.000010
+2026-01-25 00:44:08 | INFO |
+============================================================
+Validation Results (took 8.90s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6792
+  Quality Acc: 0.7370
+  Average Acc: 0.7081
+  Total Loss: 0.5605
+  Instruction Loss: 0.6104
+  Quality Loss: 0.5105
+============================================================
+2026-01-25 00:44:09 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_299.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:44:09 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_299.pt (428.0MB)
+2026-01-25 00:44:09 | INFO | Best 3 checkpoints:
+2026-01-25 00:44:09 | INFO |   1. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 00:44:09 | INFO |   2. Step 199: acc=0.6965 (reward_model.best_199.pt)
+2026-01-25 00:44:09 | INFO |   3. Step 99: acc=0.6864 (reward_model.best_99.pt)
+2026-01-25 00:44:11 | INFO | Step 300: loss=0.3611 | IF_loss=0.4409, MQ_loss=0.2813 | acc=0.812 (IF=0.792, MQ=0.833) | lr=0.000009
+2026-01-25 00:46:11 | INFO |
+============================================================
+Validation Results (took 8.37s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6908
+  Quality Acc: 0.7168
+  Average Acc: 0.7038
+  Total Loss: 0.5862
+  Instruction Loss: 0.6208
+  Quality Loss: 0.5516
+============================================================
+2026-01-25 00:46:11 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_399.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:46:12 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_399.pt (428.0MB)
+2026-01-25 00:46:12 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_99.pt
+2026-01-25 00:46:12 | INFO | Best 3 checkpoints:
+2026-01-25 00:46:12 | INFO |   1. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 00:46:12 | INFO |   2. Step 399: acc=0.7038 (reward_model.best_399.pt)
+2026-01-25 00:46:12 | INFO |   3. Step 199: acc=0.6965 (reward_model.best_199.pt)
+2026-01-25 00:46:13 | INFO | Step 400: loss=0.3193 | IF_loss=0.3378, MQ_loss=0.3007 | acc=0.865 (IF=0.833, MQ=0.896) | lr=0.000009
+2026-01-25 00:48:10 | INFO |
+============================================================
+Validation Results (took 8.01s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6763
+  Quality Acc: 0.7312
+  Average Acc: 0.7038
+  Total Loss: 0.5854
+  Instruction Loss: 0.6252
+  Quality Loss: 0.5457
+============================================================
+2026-01-25 00:48:11 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_499.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:48:11 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_499.pt (428.0MB)
+2026-01-25 00:48:11 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_199.pt
+2026-01-25 00:48:11 | INFO | Best 3 checkpoints:
+2026-01-25 00:48:11 | INFO |   1. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 00:48:11 | INFO |   2. Step 399: acc=0.7038 (reward_model.best_399.pt)
+2026-01-25 00:48:11 | INFO |   3. Step 499: acc=0.7038 (reward_model.best_499.pt)
+2026-01-25 00:48:12 | INFO | Step 500: loss=0.3185 | IF_loss=0.3553, MQ_loss=0.2816 | acc=0.844 (IF=0.875, MQ=0.812) | lr=0.000009
+2026-01-25 00:50:10 | INFO |
+============================================================
+Validation Results (took 7.80s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6792
+  Quality Acc: 0.7486
+  Average Acc: 0.7139
+  Total Loss: 0.5868
+  Instruction Loss: 0.6327
+  Quality Loss: 0.5409
+============================================================
+2026-01-25 00:50:10 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_599.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:50:11 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_599.pt (428.0MB)
+2026-01-25 00:50:11 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_499.pt
+2026-01-25 00:50:11 | INFO | Best 3 checkpoints:
+2026-01-25 00:50:11 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 00:50:11 | INFO |   2. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 00:50:11 | INFO |   3. Step 399: acc=0.7038 (reward_model.best_399.pt)
+2026-01-25 00:50:12 | INFO | Step 600: loss=0.3412 | IF_loss=0.3309, MQ_loss=0.3515 | acc=0.844 (IF=0.875, MQ=0.812) | lr=0.000008
+2026-01-25 00:52:10 | INFO |
+============================================================
+Validation Results (took 8.05s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6850
+  Quality Acc: 0.7399
+  Average Acc: 0.7124
+  Total Loss: 0.6273
+  Instruction Loss: 0.6640
+  Quality Loss: 0.5907
+============================================================
+2026-01-25 00:52:10 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_699.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:52:11 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_699.pt (428.0MB)
+2026-01-25 00:52:11 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_399.pt
+2026-01-25 00:52:11 | INFO | Best 3 checkpoints:
+2026-01-25 00:52:11 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 00:52:11 | INFO |   2. Step 699: acc=0.7124 (reward_model.best_699.pt)
+2026-01-25 00:52:11 | INFO |   3. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 00:52:12 | INFO | Step 700: loss=0.1745 | IF_loss=0.2334, MQ_loss=0.1156 | acc=0.917 (IF=0.875, MQ=0.958) | lr=0.000007
+2026-01-25 00:54:13 | INFO |
+============================================================
+Validation Results (took 8.54s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6590
+  Quality Acc: 0.7341
+  Average Acc: 0.6965
+  Total Loss: 0.6533
+  Instruction Loss: 0.6973
+  Quality Loss: 0.6092
+============================================================
+2026-01-25 00:54:13 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_799.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:54:14 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_799.pt (428.0MB)
+2026-01-25 00:54:14 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_799.pt
+2026-01-25 00:54:14 | INFO | Best 3 checkpoints:
+2026-01-25 00:54:14 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 00:54:14 | INFO |   2. Step 699: acc=0.7124 (reward_model.best_699.pt)
+2026-01-25 00:54:14 | INFO |   3. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 00:54:15 | INFO | Step 800: loss=0.2953 | IF_loss=0.3655, MQ_loss=0.2252 | acc=0.875 (IF=0.833, MQ=0.917) | lr=0.000007
+2026-01-25 00:56:15 | INFO |
+============================================================
+Validation Results (took 8.04s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6590
+  Quality Acc: 0.7283
+  Average Acc: 0.6936
+  Total Loss: 0.6663
+  Instruction Loss: 0.7004
+  Quality Loss: 0.6321
+============================================================
+2026-01-25 00:56:15 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_899.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:56:16 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_899.pt (428.0MB)
+2026-01-25 00:56:16 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_899.pt
+2026-01-25 00:56:16 | INFO | Best 3 checkpoints:
+2026-01-25 00:56:16 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 00:56:16 | INFO |   2. Step 699: acc=0.7124 (reward_model.best_699.pt)
+2026-01-25 00:56:16 | INFO |   3. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 00:56:17 | INFO | Step 900: loss=0.1683 | IF_loss=0.1746, MQ_loss=0.1621 | acc=0.938 (IF=0.958, MQ=0.917) | lr=0.000006
+2026-01-25 00:58:18 | INFO |
+============================================================
+Validation Results (took 9.16s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6561
+  Quality Acc: 0.7428
+  Average Acc: 0.6994
+  Total Loss: 0.6976
+  Instruction Loss: 0.7340
+  Quality Loss: 0.6612
+============================================================
+2026-01-25 00:58:19 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_999.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:58:19 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_999.pt (428.0MB)
+2026-01-25 00:58:19 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_999.pt
+2026-01-25 00:58:19 | INFO | Best 3 checkpoints:
+2026-01-25 00:58:19 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 00:58:19 | INFO |   2. Step 699: acc=0.7124 (reward_model.best_699.pt)
+2026-01-25 00:58:19 | INFO |   3. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 00:58:20 | INFO | Step 1000: loss=0.1489 | IF_loss=0.1420, MQ_loss=0.1559 | acc=0.948 (IF=0.938, MQ=0.958) | lr=0.000005
+2026-01-25 01:00:15 | INFO |
+============================================================
+Validation Results (took 7.24s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6590
+  Quality Acc: 0.7312
+  Average Acc: 0.6951
+  Total Loss: 0.7224
+  Instruction Loss: 0.7648
+  Quality Loss: 0.6801
+============================================================
+2026-01-25 01:00:15 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1099.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:00:15 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1099.pt (428.0MB)
+2026-01-25 01:00:16 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1099.pt
+2026-01-25 01:00:16 | INFO | Best 3 checkpoints:
+2026-01-25 01:00:16 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 01:00:16 | INFO |   2. Step 699: acc=0.7124 (reward_model.best_699.pt)
+2026-01-25 01:00:16 | INFO |   3. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 01:00:16 | INFO | Step 1100: loss=0.1252 | IF_loss=0.1115, MQ_loss=0.1390 | acc=0.958 (IF=0.979, MQ=0.938) | lr=0.000004
+2026-01-25 01:02:06 | INFO |
+============================================================
+Validation Results (took 7.27s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6503
+  Quality Acc: 0.7283
+  Average Acc: 0.6893
+  Total Loss: 0.7565
+  Instruction Loss: 0.8083
+  Quality Loss: 0.7047
+============================================================
+2026-01-25 01:02:06 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1199.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:02:06 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1199.pt (428.0MB)
+2026-01-25 01:02:06 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1199.pt
+2026-01-25 01:02:06 | INFO | Best 3 checkpoints:
+2026-01-25 01:02:06 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 01:02:06 | INFO |   2. Step 699: acc=0.7124 (reward_model.best_699.pt)
+2026-01-25 01:02:06 | INFO |   3. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 01:02:07 | INFO | Step 1200: loss=0.1319 | IF_loss=0.1250, MQ_loss=0.1388 | acc=0.896 (IF=0.875, MQ=0.917) | lr=0.000003
+2026-01-25 01:04:00 | INFO |
+============================================================
+Validation Results (took 7.46s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6647
+  Quality Acc: 0.7283
+  Average Acc: 0.6965
+  Total Loss: 0.7569
+  Instruction Loss: 0.8060
+  Quality Loss: 0.7079
+============================================================
+2026-01-25 01:04:00 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1299.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:04:00 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1299.pt (428.0MB)
+2026-01-25 01:04:01 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1299.pt
+2026-01-25 01:04:01 | INFO | Best 3 checkpoints:
+2026-01-25 01:04:01 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 01:04:01 | INFO |   2. Step 699: acc=0.7124 (reward_model.best_699.pt)
+2026-01-25 01:04:01 | INFO |   3. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 01:04:02 | INFO | Step 1300: loss=0.1072 | IF_loss=0.1049, MQ_loss=0.1095 | acc=0.958 (IF=0.979, MQ=0.938) | lr=0.000003
+2026-01-25 01:05:51 | INFO |
+============================================================
+Validation Results (took 7.30s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6445
+  Quality Acc: 0.7254
+  Average Acc: 0.6850
+  Total Loss: 0.7646
+  Instruction Loss: 0.8179
+  Quality Loss: 0.7114
+============================================================
+2026-01-25 01:05:51 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1399.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:05:52 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1399.pt (428.0MB)
+2026-01-25 01:05:52 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1399.pt
+2026-01-25 01:05:52 | INFO | Best 3 checkpoints:
+2026-01-25 01:05:52 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 01:05:52 | INFO |   2. Step 699: acc=0.7124 (reward_model.best_699.pt)
+2026-01-25 01:05:52 | INFO |   3. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 01:05:53 | INFO | Step 1400: loss=0.1399 | IF_loss=0.1608, MQ_loss=0.1191 | acc=0.969 (IF=0.958, MQ=0.979) | lr=0.000002
+2026-01-25 01:07:49 | INFO |
+============================================================
+Validation Results (took 7.28s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6474
+  Quality Acc: 0.7370
+  Average Acc: 0.6922
+  Total Loss: 0.7650
+  Instruction Loss: 0.8168
+  Quality Loss: 0.7131
+============================================================
+2026-01-25 01:07:49 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1499.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:07:50 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1499.pt (428.0MB)
+2026-01-25 01:07:50 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1499.pt
+2026-01-25 01:07:50 | INFO | Best 3 checkpoints:
+2026-01-25 01:07:50 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 01:07:50 | INFO |   2. Step 699: acc=0.7124 (reward_model.best_699.pt)
+2026-01-25 01:07:50 | INFO |   3. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 01:07:51 | INFO | Step 1500: loss=0.0816 | IF_loss=0.1031, MQ_loss=0.0600 | acc=0.969 (IF=0.979, MQ=0.958) | lr=0.000001
+2026-01-25 01:09:42 | INFO |
+============================================================
+Validation Results (took 7.73s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6445
+  Quality Acc: 0.7254
+  Average Acc: 0.6850
+  Total Loss: 0.7697
+  Instruction Loss: 0.8237
+  Quality Loss: 0.7156
+============================================================
+2026-01-25 01:09:42 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1599.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:09:42 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1599.pt (428.0MB)
+2026-01-25 01:09:42 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1599.pt
+2026-01-25 01:09:42 | INFO | Best 3 checkpoints:
+2026-01-25 01:09:42 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 01:09:42 | INFO |   2. Step 699: acc=0.7124 (reward_model.best_699.pt)
+2026-01-25 01:09:42 | INFO |   3. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 01:09:47 | INFO | Step 1600: loss=0.0867 | IF_loss=0.0924, MQ_loss=0.0809 | acc=0.990 (IF=0.979, MQ=1.000) | lr=0.000001
+2026-01-25 01:11:40 | INFO |
+============================================================
+Validation Results (took 8.52s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6532
+  Quality Acc: 0.7283
+  Average Acc: 0.6908
+  Total Loss: 0.7751
+  Instruction Loss: 0.8262
+  Quality Loss: 0.7239
+============================================================
+2026-01-25 01:11:40 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1699.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:11:41 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1699.pt (428.0MB)
+2026-01-25 01:11:41 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1699.pt
+2026-01-25 01:11:41 | INFO | Best 3 checkpoints:
+2026-01-25 01:11:41 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 01:11:41 | INFO |   2. Step 699: acc=0.7124 (reward_model.best_699.pt)
+2026-01-25 01:11:41 | INFO |   3. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 01:11:42 | INFO | Step 1700: loss=0.1204 | IF_loss=0.0824, MQ_loss=0.1585 | acc=0.927 (IF=0.979, MQ=0.875) | lr=0.000001
+2026-01-25 01:13:36 | INFO |
+============================================================
+Validation Results (took 7.21s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6590
+  Quality Acc: 0.7283
+  Average Acc: 0.6936
+  Total Loss: 0.7810
+  Instruction Loss: 0.8338
+  Quality Loss: 0.7282
+============================================================
+2026-01-25 01:13:36 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1799.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:13:36 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1799.pt (428.0MB)
+2026-01-25 01:13:37 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1799.pt
+2026-01-25 01:13:37 | INFO | Best 3 checkpoints:
+2026-01-25 01:13:37 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 01:13:37 | INFO |   2. Step 699: acc=0.7124 (reward_model.best_699.pt)
+2026-01-25 01:13:37 | INFO |   3. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 01:13:38 | INFO | Step 1800: loss=0.0594 | IF_loss=0.0719, MQ_loss=0.0470 | acc=0.979 (IF=0.958, MQ=1.000) | lr=0.000000
+2026-01-25 01:15:28 | INFO |
+============================================================
+Validation Results (took 7.61s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6532
+  Quality Acc: 0.7283
+  Average Acc: 0.6908
+  Total Loss: 0.7827
+  Instruction Loss: 0.8356
+  Quality Loss: 0.7299
+============================================================
+2026-01-25 01:15:28 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1899.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:15:28 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1899.pt (428.0MB)
+2026-01-25 01:15:28 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1899.pt
+2026-01-25 01:15:28 | INFO | Best 3 checkpoints:
+2026-01-25 01:15:28 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 01:15:28 | INFO |   2. Step 699: acc=0.7124 (reward_model.best_699.pt)
+2026-01-25 01:15:28 | INFO |   3. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 01:15:29 | INFO | Step 1900: loss=0.1343 | IF_loss=0.1457, MQ_loss=0.1229 | acc=0.906 (IF=0.896, MQ=0.917) | lr=0.000000
+2026-01-25 01:17:19 | INFO |
+============================================================
+Validation Results (took 6.92s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6532
+  Quality Acc: 0.7312
+  Average Acc: 0.6922
+  Total Loss: 0.7832
+  Instruction Loss: 0.8361
+  Quality Loss: 0.7304
+============================================================
+2026-01-25 01:17:19 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1999.pt (filtered to 38.584M trainable parameters)
+2026-01-25 01:17:20 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1999.pt (428.0MB)
+2026-01-25 01:17:20 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0037/ckpt/reward_model.best_1999.pt
+2026-01-25 01:17:20 | INFO | Best 3 checkpoints:
+2026-01-25 01:17:20 | INFO |   1. Step 599: acc=0.7139 (reward_model.best_599.pt)
+2026-01-25 01:17:20 | INFO |   2. Step 699: acc=0.7124 (reward_model.best_699.pt)
+2026-01-25 01:17:20 | INFO |   3. Step 299: acc=0.7081 (reward_model.best_299.pt)
+2026-01-25 01:17:20 | INFO | Training complete!
+2026-01-25 01:17:20 | INFO | Training complete!

20260125_0038/config.yaml ADDED Viewed

	@@ -0,0 +1,142 @@

+DEVICES: '3'
+accelerate:
+  mixed_precision: bf16
+basics:
+  random_seed: 42
+  save_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model
+dataset:
+  audio_dropout:
+    apply_to_eval: true
+    apply_to_ref: true
+    enabled: true
+    eval_only_on_training: true
+    max_duration: 1500
+    min_duration: 200
+    train_mode: start
+  cache_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/tmp
+  db_path: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/backend/database.db
+  duration: 600.0
+  embedding_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/supervised_embeddings
+  max_samples: null
+  max_val_samples: null
+  metadata_jsonl: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/all_comparisons.jsonl
+  mode: raw_text_frozen_audio
+  preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/human_annotations/train.json
+  sample_rate: 24000
+  val_preference_file: null
+loss:
+  IF_ratio: 0.5
+  filter_ties: true
+  label_smoothing: 0.0
+  reduction: mean
+model:
+  attention_mode: SA
+  attn_dropout: 0.0
+  category_embeddings: null
+  dim: 768
+  dim_head: 64
+  downsample:
+    configs:
+      conv2_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv*2
+        use_layernorm: true
+      conv_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv
+        stage: 1
+        use_layernorm: true
+      glu_4x:
+        factor: 4
+        kernel_size: 5
+        kind: gluconv*2+pw
+        use_layernorm: true
+      mean:
+        factor: 2
+        kind: mean
+      mean_4x:
+        dropout: 0.0
+        factor: 30
+        kind: mean+mlp
+        mlp_ratio: 2.0
+      none:
+        factor: 1
+        kind: none
+    eval: mean_4x
+    ref: null
+    text: none
+  ff_dropout: 0.0
+  ff_mult: 4
+  freeze_audio: true
+  freeze_text: true
+  gradient_checkpointing: false
+  heads: 8
+  joint_tf_depth: 1
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+  mlp_dim: 768
+  mode: concat_text_late
+  model_name: OpenMuQ/MuQ-MuLan-large
+  name: reward
+  no_condition: false
+  null_embedding:
+    audio:
+      dropout: 0.5
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    text:
+      dropout: 0
+      length: 10
+  output_dim: 2
+  prompt_tf_depth: 4
+  sr: 24000
+  text_encoder:
+    name: muq_mulan
+    tune: null
+  text_lora_config: null
+  train_muq_depth: 0
+  train_muqmulan: false
+  use_audio: true
+  use_layer_idx: -1
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: null
+train:
+  batch_size: 48
+  betas:
+  - 0.9
+  - 0.99
+  ema_decay: 0.9999
+  ema_update_every: 1
+  enable_gradient_checkpointing: true
+  force_clear_prev_results: false
+  grad_accum_every: 1
+  log_tensorboard: true
+  lr_schedule:
+    min_lr_ratio: 0.001
+    name: linear_cosine
+    total_steps: 2000
+    warmup_steps: 10
+  max_grad_norm: 1
+  mlp_lr: 1.0e-05
+  num_train_steps: 2000
+  num_valid_batches: null
+  num_workers: 8
+  other_lr: 1.0e-05
+  resume: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.20000.pt
+  resume_optimizer: false
+  save_model_every: 2000
+  use_checkpoint_config: true
+  use_ema: false
+  use_lion: false
+  valid_batch_size: 20
+  valid_every: 100
+  valid_frac: 0.1
+  verify_weights_on_load: true
+validate_only: false

20260125_0038/reward_model/1769272741.4481056/events.out.tfevents.1769272741.MACLAB-S004.3419169.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b05b3493f3a74ca2aaaf8a9d4104cacb90a38935cf1f11482a5dd926ef450af
+size 503

20260125_0038/reward_model/1769272741.4495451/hparams.yml ADDED Viewed

	@@ -0,0 +1,4 @@

+batch_size: 48
+grad_accum_every: 1
+learning_rate: 1.0e-05
+num_train_steps: 2000

20260125_0038/reward_model/events.out.tfevents.1769272741.MACLAB-S004.3419169.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87b529d6d3202ede1b59405b16990059f5aa626adc0cd7c689cc5f35b07c43d6
+size 428856

20260125_0038/train.20260125_0038.log ADDED Viewed

	@@ -0,0 +1,211 @@

+2026-01-25 00:38:50 | INFO | Log file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/train.20260125_0038.log
+2026-01-25 00:38:50 | INFO | Random seed set to 42
+2026-01-25 00:38:51 | INFO | Created RawTextFrozenAudioDataset with 3463 samples
+2026-01-25 00:38:51 | INFO | Split dataset into train (3117) and validation (346) sets (ratio: 10.00%)
+2026-01-25 00:38:51 | INFO | Will resume from checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.20000.pt
+2026-01-25 00:38:51 | INFO | Using checkpoint config for model initialization (continue training mode)
+2026-01-25 00:38:59 | INFO | Created RewardAttentionModel with attention_mode=SA
+2026-01-25 00:38:59 | INFO | Created PreferenceLoss with filter_ties=True
+2026-01-25 00:38:59 | INFO | ✓ Gradient checkpointing enabled
+2026-01-25 00:38:59 | INFO | ✓ Audio cropping enabled: min=200, max=1500
+2026-01-25 00:38:59 | INFO |   Apply to eval: True, ref: True
+2026-01-25 00:38:59 | INFO |   Modes: train=random, val=start
+2026-01-25 00:38:59 | INFO | MLP head parameters: 1,186,563 params, lr=1e-05
+2026-01-25 00:38:59 | INFO | Other parameters: 37,397,634 params, lr=1e-05
+2026-01-25 00:38:59 | INFO | Using lr_schedule=linear_cosine warmup_steps=10 total_steps=2000
+2026-01-25 00:38:59 | INFO | Training with fixed validation set
+2026-01-25 00:38:59 | INFO | Train batch_size: 48, Valid batch_size: 20
+2026-01-25 00:39:00 | INFO | Missing keys (782): ['text_module.model.embeddings.word_embeddings.weight', 'text_module.model.embeddings.position_embeddings.weight', 'text_module.model.embeddings.token_type_embeddings.weight', 'text_module.model.embeddings.LayerNorm.weight', 'text_module.model.embeddings.LayerNorm.bias']...
+2026-01-25 00:39:00 | INFO | ✓ Starting from step 0 (transfer learning mode, ignoring checkpoint steps=20000)
+2026-01-25 00:39:00 | INFO | Resumed from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.20000.pt
+2026-01-25 00:39:00 | INFO | Parameters: 701.162M total, 38.584M trainable
+2026-01-25 00:39:00 | INFO |   Text encoder (frozen): 328.389M
+2026-01-25 00:39:00 | INFO |   Audio encoder (frozen): 334.189M
+2026-01-25 00:39:00 | INFO |   Other trainable: 38.584M
+2026-01-25 00:39:00 | INFO | ℹ No LoRA configuration detected
+2026-01-25 00:39:01 | INFO | ============================================================
+2026-01-25 00:39:01 | INFO | Ready to start training
+2026-01-25 00:39:01 | INFO | ============================================================
+2026-01-25 00:39:01 | INFO | Starting training from step 0
+2026-01-25 00:39:01 | INFO | ===== Accelerator / CUDA Debug Info =====
+2026-01-25 00:39:01 | INFO | accelerator.device = cuda
+2026-01-25 00:39:01 | INFO | mixed_precision = bf16
+2026-01-25 00:39:01 | INFO | distributed_type = NO
+2026-01-25 00:39:01 | INFO | num_processes = 1
+2026-01-25 00:39:01 | INFO | process_index = 0
+2026-01-25 00:39:01 | INFO | is_main_process = True
+2026-01-25 00:39:01 | INFO | torch.cuda.is_available() = True
+2026-01-25 00:39:01 | INFO | torch.cuda.device_count() = 1
+2026-01-25 00:39:01 | INFO | current_device = 0
+2026-01-25 00:39:01 | INFO | device_name = NVIDIA GeForce RTX 4090
+2026-01-25 00:39:01 | INFO | model parameter device = cuda:0
+2026-01-25 00:39:01 | INFO | Training for 2000.0 steps (~32 epochs, 64 steps/epoch)
+2026-01-25 00:39:12 | INFO | Step 0: loss=1.3478 | IF_loss=1.7487, MQ_loss=0.9469 | acc=0.719 (IF=0.667, MQ=0.771) | lr=0.000002
+2026-01-25 00:39:12 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.0.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:39:13 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.0.pt (428.0MB)
+2026-01-25 00:39:13 | INFO | Step 0: Saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.0.pt
+2026-01-25 00:41:09 | INFO |
+============================================================
+Validation Results (took 10.74s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7052
+  Quality Acc: 0.7139
+  Average Acc: 0.7095
+  Total Loss: 0.9740
+  Instruction Loss: 0.9900
+  Quality Loss: 0.9581
+============================================================
+2026-01-25 00:41:09 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_99.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:41:09 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_99.pt (428.0MB)
+2026-01-25 00:41:09 | INFO | Best 1 checkpoints:
+2026-01-25 00:41:09 | INFO |   1. Step 99: acc=0.7095 (reward_model.best_99.pt)
+2026-01-25 00:41:10 | INFO | Step 100: loss=0.8833 | IF_loss=0.7300, MQ_loss=1.0365 | acc=0.688 (IF=0.708, MQ=0.667) | lr=0.000010
+2026-01-25 00:43:08 | INFO |
+============================================================
+Validation Results (took 7.91s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7139
+  Quality Acc: 0.7370
+  Average Acc: 0.7254
+  Total Loss: 0.6643
+  Instruction Loss: 0.6989
+  Quality Loss: 0.6297
+============================================================
+2026-01-25 00:43:08 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_199.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:43:08 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_199.pt (428.0MB)
+2026-01-25 00:43:08 | INFO | Best 2 checkpoints:
+2026-01-25 00:43:08 | INFO |   1. Step 199: acc=0.7254 (reward_model.best_199.pt)
+2026-01-25 00:43:08 | INFO |   2. Step 99: acc=0.7095 (reward_model.best_99.pt)
+2026-01-25 00:43:09 | INFO | Step 200: loss=0.3416 | IF_loss=0.3084, MQ_loss=0.3748 | acc=0.823 (IF=0.854, MQ=0.792) | lr=0.000010
+2026-01-25 00:45:01 | INFO |
+============================================================
+Validation Results (took 8.58s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7168
+  Quality Acc: 0.7543
+  Average Acc: 0.7355
+  Total Loss: 0.6117
+  Instruction Loss: 0.6554
+  Quality Loss: 0.5680
+============================================================
+2026-01-25 00:45:01 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_299.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:45:01 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_299.pt (428.0MB)
+2026-01-25 00:45:01 | INFO | Best 3 checkpoints:
+2026-01-25 00:45:01 | INFO |   1. Step 299: acc=0.7355 (reward_model.best_299.pt)
+2026-01-25 00:45:01 | INFO |   2. Step 199: acc=0.7254 (reward_model.best_199.pt)
+2026-01-25 00:45:01 | INFO |   3. Step 99: acc=0.7095 (reward_model.best_99.pt)
+2026-01-25 00:45:02 | INFO | Step 300: loss=0.3717 | IF_loss=0.4516, MQ_loss=0.2917 | acc=0.844 (IF=0.854, MQ=0.833) | lr=0.000009
+2026-01-25 00:46:56 | INFO |
+============================================================
+Validation Results (took 8.46s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7081
+  Quality Acc: 0.7630
+  Average Acc: 0.7355
+  Total Loss: 0.6097
+  Instruction Loss: 0.6561
+  Quality Loss: 0.5632
+============================================================
+2026-01-25 00:46:56 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_399.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:46:56 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_399.pt (428.0MB)
+2026-01-25 00:46:56 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_99.pt
+2026-01-25 00:46:56 | INFO | Best 3 checkpoints:
+2026-01-25 00:46:56 | INFO |   1. Step 299: acc=0.7355 (reward_model.best_299.pt)
+2026-01-25 00:46:56 | INFO |   2. Step 399: acc=0.7355 (reward_model.best_399.pt)
+2026-01-25 00:46:56 | INFO |   3. Step 199: acc=0.7254 (reward_model.best_199.pt)
+2026-01-25 00:46:57 | INFO | Step 400: loss=0.5054 | IF_loss=0.5431, MQ_loss=0.4678 | acc=0.792 (IF=0.750, MQ=0.833) | lr=0.000009
+2026-01-25 00:48:50 | INFO |
+============================================================
+Validation Results (took 8.33s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7110
+  Quality Acc: 0.7630
+  Average Acc: 0.7370
+  Total Loss: 0.6197
+  Instruction Loss: 0.6728
+  Quality Loss: 0.5666
+============================================================
+2026-01-25 00:48:50 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_499.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:48:50 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_499.pt (428.0MB)
+2026-01-25 00:48:50 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_199.pt
+2026-01-25 00:48:50 | INFO | Best 3 checkpoints:
+2026-01-25 00:48:50 | INFO |   1. Step 499: acc=0.7370 (reward_model.best_499.pt)
+2026-01-25 00:48:50 | INFO |   2. Step 299: acc=0.7355 (reward_model.best_299.pt)
+2026-01-25 00:48:50 | INFO |   3. Step 399: acc=0.7355 (reward_model.best_399.pt)
+2026-01-25 00:48:51 | INFO | Step 500: loss=0.4587 | IF_loss=0.5137, MQ_loss=0.4036 | acc=0.698 (IF=0.688, MQ=0.708) | lr=0.000009
+2026-01-25 00:50:47 | INFO |
+============================================================
+Validation Results (took 7.48s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7139
+  Quality Acc: 0.7601
+  Average Acc: 0.7370
+  Total Loss: 0.6275
+  Instruction Loss: 0.6826
+  Quality Loss: 0.5724
+============================================================
+2026-01-25 00:50:47 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_599.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:50:48 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_599.pt (428.0MB)
+2026-01-25 00:50:48 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_399.pt
+2026-01-25 00:50:48 | INFO | Best 3 checkpoints:
+2026-01-25 00:50:48 | INFO |   1. Step 499: acc=0.7370 (reward_model.best_499.pt)
+2026-01-25 00:50:48 | INFO |   2. Step 599: acc=0.7370 (reward_model.best_599.pt)
+2026-01-25 00:50:48 | INFO |   3. Step 299: acc=0.7355 (reward_model.best_299.pt)
+2026-01-25 00:50:49 | INFO | Step 600: loss=0.4492 | IF_loss=0.4779, MQ_loss=0.4205 | acc=0.833 (IF=0.792, MQ=0.875) | lr=0.000008
+2026-01-25 00:52:39 | INFO |
+============================================================
+Validation Results (took 7.99s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6994
+  Quality Acc: 0.7659
+  Average Acc: 0.7327
+  Total Loss: 0.6397
+  Instruction Loss: 0.7005
+  Quality Loss: 0.5788
+============================================================
+2026-01-25 00:52:39 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_699.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:52:40 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_699.pt (428.0MB)
+2026-01-25 00:52:40 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_699.pt
+2026-01-25 00:52:40 | INFO | Best 3 checkpoints:
+2026-01-25 00:52:40 | INFO |   1. Step 499: acc=0.7370 (reward_model.best_499.pt)
+2026-01-25 00:52:40 | INFO |   2. Step 599: acc=0.7370 (reward_model.best_599.pt)
+2026-01-25 00:52:40 | INFO |   3. Step 299: acc=0.7355 (reward_model.best_299.pt)
+2026-01-25 00:52:41 | INFO | Step 700: loss=0.2280 | IF_loss=0.3205, MQ_loss=0.1356 | acc=0.938 (IF=0.917, MQ=0.958) | lr=0.000007
+2026-01-25 00:54:34 | INFO |
+============================================================
+Validation Results (took 7.95s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7110
+  Quality Acc: 0.7688
+  Average Acc: 0.7399
+  Total Loss: 0.6517
+  Instruction Loss: 0.7169
+  Quality Loss: 0.5864
+============================================================
+2026-01-25 00:54:34 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_799.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:54:34 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_799.pt (428.0MB)
+2026-01-25 00:54:34 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_299.pt
+2026-01-25 00:54:34 | INFO | Best 3 checkpoints:
+2026-01-25 00:54:34 | INFO |   1. Step 799: acc=0.7399 (reward_model.best_799.pt)
+2026-01-25 00:54:34 | INFO |   2. Step 499: acc=0.7370 (reward_model.best_499.pt)
+2026-01-25 00:54:34 | INFO |   3. Step 599: acc=0.7370 (reward_model.best_599.pt)
+2026-01-25 00:54:35 | INFO | Step 800: loss=0.3855 | IF_loss=0.4637, MQ_loss=0.3072 | acc=0.792 (IF=0.750, MQ=0.833) | lr=0.000007
+2026-01-25 00:56:29 | INFO |
+============================================================
+Validation Results (took 7.96s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7110
+  Quality Acc: 0.7572
+  Average Acc: 0.7341
+  Total Loss: 0.6621
+  Instruction Loss: 0.7294
+  Quality Loss: 0.5948
+============================================================
+2026-01-25 00:56:29 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_899.pt (filtered to 38.584M trainable parameters)
+2026-01-25 00:56:29 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_899.pt (428.0MB)
+2026-01-25 00:56:29 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260125_0038/ckpt/reward_model.best_899.pt
+2026-01-25 00:56:29 | INFO | Best 3 checkpoints:
+2026-01-25 00:56:29 | INFO |   1. Step 799: acc=0.7399 (reward_model.best_799.pt)
+2026-01-25 00:56:29 | INFO |   2. Step 499: acc=0.7370 (reward_model.best_499.pt)
+2026-01-25 00:56:29 | INFO |   3. Step 599: acc=0.7370 (reward_model.best_599.pt)
+2026-01-25 00:56:30 | INFO | Step 900: loss=0.3468 | IF_loss=0.3446, MQ_loss=0.3489 | acc=0.812 (IF=0.812, MQ=0.812) | lr=0.000006

20260125_0933/config.yaml ADDED Viewed

	@@ -0,0 +1,142 @@

+DEVICES: '0'
+accelerate:
+  mixed_precision: bf16
+basics:
+  random_seed: 42
+  save_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human
+dataset:
+  audio_dropout:
+    apply_to_eval: true
+    apply_to_ref: true
+    enabled: true
+    eval_only_on_training: true
+    max_duration: 1500
+    min_duration: 200
+    train_mode: start
+  cache_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/tmp
+  db_path: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/backend/database.db
+  duration: 600.0
+  embedding_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/supervised_embeddings
+  max_samples: null
+  max_val_samples: null
+  metadata_jsonl: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/all_comparisons.jsonl
+  mode: raw_text_frozen_audio
+  preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/human_annotations/train.json
+  sample_rate: 24000
+  val_preference_file: null
+loss:
+  IF_ratio: 0.5
+  filter_ties: true
+  label_smoothing: 0.0
+  reduction: mean
+model:
+  attention_mode: SA
+  attn_dropout: 0.0
+  category_embeddings: null
+  dim: 768
+  dim_head: 64
+  downsample:
+    configs:
+      conv2_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv*2
+        use_layernorm: true
+      conv_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv
+        stage: 1
+        use_layernorm: true
+      glu_4x:
+        factor: 4
+        kernel_size: 5
+        kind: gluconv*2+pw
+        use_layernorm: true
+      mean:
+        factor: 2
+        kind: mean
+      mean_4x:
+        dropout: 0.0
+        factor: 30
+        kind: mean+mlp
+        mlp_ratio: 2.0
+      none:
+        factor: 1
+        kind: none
+    eval: mean_4x
+    ref: null
+    text: none
+  ff_dropout: 0.0
+  ff_mult: 4
+  freeze_audio: true
+  freeze_text: true
+  gradient_checkpointing: false
+  heads: 8
+  joint_tf_depth: 1
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+  mlp_dim: 768
+  mode: concat_text_late
+  model_name: OpenMuQ/MuQ-MuLan-large
+  name: reward
+  no_condition: false
+  null_embedding:
+    audio:
+      dropout: 0.5
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    text:
+      dropout: 0
+      length: 10
+  output_dim: 2
+  prompt_tf_depth: 4
+  sr: 24000
+  text_encoder:
+    name: muq_mulan
+    tune: null
+  text_lora_config: null
+  train_muq_depth: 0
+  train_muqmulan: false
+  use_audio: true
+  use_layer_idx: -1
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: null
+train:
+  batch_size: 48
+  betas:
+  - 0.9
+  - 0.99
+  ema_decay: 0.9999
+  ema_update_every: 1
+  enable_gradient_checkpointing: true
+  force_clear_prev_results: false
+  grad_accum_every: 1
+  log_tensorboard: true
+  lr_schedule:
+    min_lr_ratio: 0.001
+    name: linear_cosine
+    total_steps: 2000
+    warmup_steps: 10
+  max_grad_norm: 1
+  mlp_lr: 1.0e-05
+  num_train_steps: 2000
+  num_valid_batches: null
+  num_workers: 8
+  other_lr: 1.0e-05
+  resume: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.best_29999.pt
+  resume_optimizer: false
+  save_model_every: 2000
+  use_checkpoint_config: true
+  use_ema: false
+  use_lion: false
+  valid_batch_size: 20
+  valid_every: 100
+  valid_frac: 0.1
+  verify_weights_on_load: true
+validate_only: false

20260125_0933/reward_model/1769304848.6545663/events.out.tfevents.1769304848.MACLAB-S004.1519845.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c582683cea0697f98b6b4b9e504078b8949e1df961163c7183bb40829fde464
+size 503

20260125_0933/reward_model/1769304848.6563416/hparams.yml ADDED Viewed

	@@ -0,0 +1,4 @@

+batch_size: 48
+grad_accum_every: 1
+learning_rate: 1.0e-05
+num_train_steps: 2000

20260125_0933/reward_model/events.out.tfevents.1769304848.MACLAB-S004.1519845.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26a03747b7fe4dfb03f91816a786eee4cedec85474701f7636e7363c8f5ad76e
+size 873949

20260125_0933/train.20260125_0933.log ADDED Viewed

	@@ -0,0 +1,564 @@

+2026-01-25 09:33:55 | INFO | Log file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/train.20260125_0933.log
+2026-01-25 09:33:55 | INFO | Config: DEVICES: '0'
+accelerate:
+  mixed_precision: bf16
+basics:
+  random_seed: 42
+  save_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human
+dataset:
+  audio_dropout:
+    apply_to_eval: true
+    apply_to_ref: true
+    enabled: true
+    eval_only_on_training: true
+    max_duration: 1500
+    min_duration: 200
+    train_mode: start
+  cache_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/tmp
+  db_path: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/backend/database.db
+  duration: 600.0
+  embedding_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/supervised_embeddings
+  mode: raw_text_frozen_audio
+  max_samples: null
+  max_val_samples: null
+  metadata_jsonl: ${project_root}/CMI-Training/all_comparisons.jsonl
+  preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/human_annotations/train.json
+  sample_rate: 24000
+  val_preference_file: null
+loss:
+  IF_ratio: 0.5
+  filter_ties: true
+  label_smoothing: 0.0
+  reduction: mean
+model:
+  attention_mode: SA
+  attn_dropout: 0.0
+  category_embeddings: null
+  dim: 768
+  dim_head: 64
+  downsample:
+    configs:
+      conv2_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv*2
+        use_layernorm: true
+      conv_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv
+        stage: 1
+        use_layernorm: true
+      glu_4x:
+        factor: 4
+        kernel_size: 5
+        kind: gluconv*2+pw
+        use_layernorm: true
+      mean:
+        factor: 2
+        kind: mean
+      mean_4x:
+        dropout: 0.0
+        factor: 30
+        kind: mean+mlp
+        mlp_ratio: 2.0
+      none:
+        factor: 1
+        kind: none
+    eval: mean_4x
+    ref: null
+    text: none
+  ff_dropout: 0.0
+  ff_mult: 4
+  freeze_audio: true
+  freeze_text: true
+  gradient_checkpointing: false
+  heads: 8
+  joint_tf_depth: 1
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+  mlp_dim: 768
+  mode: concat_text_late
+  model_name: OpenMuQ/MuQ-MuLan-large
+  name: reward
+  null_embedding:
+    audio:
+      dropout: 0.5
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    text:
+      dropout: 0
+      length: 10
+  output_dim: 2
+  prompt_tf_depth: 4
+  sr: 24000
+  text_encoder:
+    name: muq_mulan
+    tune: null
+  text_lora_config: null
+  train_muq_depth: 0
+  train_muqmulan: false
+  use_layer_idx: -1
+  use_audio: true
+  no_condition: false
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: null
+train:
+  batch_size: 48
+  betas:
+  - 0.9
+  - 0.99
+  ema_decay: 0.9999
+  ema_update_every: 1
+  enable_gradient_checkpointing: true
+  force_clear_prev_results: false
+  grad_accum_every: 1
+  log_tensorboard: true
+  lr_schedule:
+    min_lr_ratio: 0.001
+    name: linear_cosine
+    total_steps: 2000
+    warmup_steps: 10
+  max_grad_norm: 1
+  mlp_lr: 1.0e-05
+  num_train_steps: 2000
+  num_valid_batches: null
+  num_workers: 8
+  other_lr: 1.0e-05
+  resume: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.best_29999.pt
+  resume_optimizer: false
+  save_model_every: 2000
+  use_checkpoint_config: true
+  use_ema: false
+  use_lion: false
+  valid_batch_size: 20
+  valid_every: 100
+  valid_frac: 0.1
+  verify_weights_on_load: true
+validate_only: false
+2026-01-25 09:33:55 | INFO | Random seed set to 42
+2026-01-25 09:33:56 | INFO | Created RawTextFrozenAudioDataset with 3463 samples
+2026-01-25 09:33:56 | INFO | Split dataset into train (3117) and validation (346) sets (ratio: 10.00%)
+2026-01-25 09:33:56 | INFO | Will resume from checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.best_29999.pt
+2026-01-25 09:33:56 | INFO | Using checkpoint config for model initialization (continue training mode)
+2026-01-25 09:34:06 | INFO | Created RewardAttentionModel with attention_mode=SA
+2026-01-25 09:34:06 | INFO | Created PreferenceLoss with filter_ties=True
+2026-01-25 09:34:06 | INFO | ✓ Gradient checkpointing enabled
+2026-01-25 09:34:06 | INFO | ✓ Audio cropping enabled: min=200, max=1500
+2026-01-25 09:34:06 | INFO |   Apply to eval: True, ref: True
+2026-01-25 09:34:06 | INFO |   Modes: train=random, val=start
+2026-01-25 09:34:06 | INFO | MLP head parameters: 1,186,563 params, lr=1e-05
+2026-01-25 09:34:06 | INFO | Other parameters: 37,397,634 params, lr=1e-05
+2026-01-25 09:34:06 | INFO | Using lr_schedule=linear_cosine warmup_steps=10 total_steps=2000
+2026-01-25 09:34:06 | INFO | Training with fixed validation set
+2026-01-25 09:34:06 | INFO | Train batch_size: 48, Valid batch_size: 20
+2026-01-25 09:34:08 | INFO | Missing keys (782): ['text_module.model.embeddings.word_embeddings.weight', 'text_module.model.embeddings.position_embeddings.weight', 'text_module.model.embeddings.token_type_embeddings.weight', 'text_module.model.embeddings.LayerNorm.weight', 'text_module.model.embeddings.LayerNorm.bias']...
+2026-01-25 09:34:08 | INFO | ✓ Starting from step 0 (transfer learning mode, ignoring checkpoint steps=29999)
+2026-01-25 09:34:08 | INFO | Resumed from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260124_0147/ckpt/reward_model.best_29999.pt
+2026-01-25 09:34:08 | INFO | Parameters: 701.162M total, 38.584M trainable
+2026-01-25 09:34:08 | INFO |   Text encoder (frozen): 328.389M
+2026-01-25 09:34:08 | INFO |   Audio encoder (frozen): 334.189M
+2026-01-25 09:34:08 | INFO |   Other trainable: 38.584M
+2026-01-25 09:34:08 | INFO | ℹ No LoRA configuration detected
+2026-01-25 09:34:08 | INFO | ============================================================
+2026-01-25 09:34:08 | INFO | Ready to start training
+2026-01-25 09:34:08 | INFO | ============================================================
+2026-01-25 09:34:08 | INFO | Starting training from step 0
+2026-01-25 09:34:08 | INFO | ===== Accelerator / CUDA Debug Info =====
+2026-01-25 09:34:08 | INFO | accelerator.device = cuda
+2026-01-25 09:34:08 | INFO | mixed_precision = bf16
+2026-01-25 09:34:08 | INFO | distributed_type = NO
+2026-01-25 09:34:08 | INFO | num_processes = 1
+2026-01-25 09:34:08 | INFO | process_index = 0
+2026-01-25 09:34:08 | INFO | is_main_process = True
+2026-01-25 09:34:08 | INFO | torch.cuda.is_available() = True
+2026-01-25 09:34:08 | INFO | torch.cuda.device_count() = 1
+2026-01-25 09:34:08 | INFO | current_device = 0
+2026-01-25 09:34:08 | INFO | device_name = NVIDIA GeForce RTX 4090
+2026-01-25 09:34:08 | INFO | model parameter device = cuda:0
+2026-01-25 09:34:08 | INFO | Training for 2000.0 steps (~32 epochs, 64 steps/epoch)
+2026-01-25 09:34:17 | INFO | Step 0: loss=1.7986 | IF_loss=2.3230, MQ_loss=1.2743 | acc=0.750 (IF=0.688, MQ=0.812) | lr=0.000002
+2026-01-25 09:34:17 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.0.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:34:17 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.0.pt (428.0MB)
+2026-01-25 09:34:17 | INFO | Step 0: Saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.0.pt
+2026-01-25 09:35:59 | INFO |
+============================================================
+Validation Results (took 7.82s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7110
+  Quality Acc: 0.6879
+  Average Acc: 0.6994
+  Total Loss: 1.2359
+  Instruction Loss: 1.2306
+  Quality Loss: 1.2412
+============================================================
+2026-01-25 09:35:59 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_99.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:35:59 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_99.pt (428.0MB)
+2026-01-25 09:35:59 | INFO | Best 1 checkpoints:
+2026-01-25 09:35:59 | INFO |   1. Step 99: acc=0.6994 (reward_model.best_99.pt)
+2026-01-25 09:36:00 | INFO | Step 100: loss=1.0465 | IF_loss=0.8500, MQ_loss=1.2430 | acc=0.688 (IF=0.708, MQ=0.667) | lr=0.000010
+2026-01-25 09:37:40 | INFO |
+============================================================
+Validation Results (took 6.16s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6994
+  Quality Acc: 0.7370
+  Average Acc: 0.7182
+  Total Loss: 0.7219
+  Instruction Loss: 0.7455
+  Quality Loss: 0.6983
+============================================================
+2026-01-25 09:37:40 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_199.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:37:41 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_199.pt (428.0MB)
+2026-01-25 09:37:41 | INFO | Best 2 checkpoints:
+2026-01-25 09:37:41 | INFO |   1. Step 199: acc=0.7182 (reward_model.best_199.pt)
+2026-01-25 09:37:41 | INFO |   2. Step 99: acc=0.6994 (reward_model.best_99.pt)
+2026-01-25 09:37:42 | INFO | Step 200: loss=0.3606 | IF_loss=0.3367, MQ_loss=0.3845 | acc=0.823 (IF=0.833, MQ=0.812) | lr=0.000010
+2026-01-25 09:39:20 | INFO |
+============================================================
+Validation Results (took 6.75s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7110
+  Quality Acc: 0.7572
+  Average Acc: 0.7341
+  Total Loss: 0.6270
+  Instruction Loss: 0.6676
+  Quality Loss: 0.5865
+============================================================
+2026-01-25 09:39:20 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_299.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:39:20 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_299.pt (428.0MB)
+2026-01-25 09:39:20 | INFO | Best 3 checkpoints:
+2026-01-25 09:39:20 | INFO |   1. Step 299: acc=0.7341 (reward_model.best_299.pt)
+2026-01-25 09:39:20 | INFO |   2. Step 199: acc=0.7182 (reward_model.best_199.pt)
+2026-01-25 09:39:20 | INFO |   3. Step 99: acc=0.6994 (reward_model.best_99.pt)
+2026-01-25 09:39:21 | INFO | Step 300: loss=0.3793 | IF_loss=0.4554, MQ_loss=0.3032 | acc=0.844 (IF=0.833, MQ=0.854) | lr=0.000009
+2026-01-25 09:41:04 | INFO |
+============================================================
+Validation Results (took 6.57s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7110
+  Quality Acc: 0.7486
+  Average Acc: 0.7298
+  Total Loss: 0.6179
+  Instruction Loss: 0.6620
+  Quality Loss: 0.5737
+============================================================
+2026-01-25 09:41:04 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_399.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:41:04 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_399.pt (428.0MB)
+2026-01-25 09:41:04 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_99.pt
+2026-01-25 09:41:04 | INFO | Best 3 checkpoints:
+2026-01-25 09:41:04 | INFO |   1. Step 299: acc=0.7341 (reward_model.best_299.pt)
+2026-01-25 09:41:04 | INFO |   2. Step 399: acc=0.7298 (reward_model.best_399.pt)
+2026-01-25 09:41:04 | INFO |   3. Step 199: acc=0.7182 (reward_model.best_199.pt)
+2026-01-25 09:41:05 | INFO | Step 400: loss=0.4959 | IF_loss=0.5285, MQ_loss=0.4633 | acc=0.812 (IF=0.792, MQ=0.833) | lr=0.000009
+2026-01-25 09:42:46 | INFO |
+============================================================
+Validation Results (took 7.13s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7023
+  Quality Acc: 0.7601
+  Average Acc: 0.7312
+  Total Loss: 0.6337
+  Instruction Loss: 0.6835
+  Quality Loss: 0.5838
+============================================================
+2026-01-25 09:42:46 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_499.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:42:46 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_499.pt (428.0MB)
+2026-01-25 09:42:46 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_199.pt
+2026-01-25 09:42:46 | INFO | Best 3 checkpoints:
+2026-01-25 09:42:46 | INFO |   1. Step 299: acc=0.7341 (reward_model.best_299.pt)
+2026-01-25 09:42:46 | INFO |   2. Step 499: acc=0.7312 (reward_model.best_499.pt)
+2026-01-25 09:42:46 | INFO |   3. Step 399: acc=0.7298 (reward_model.best_399.pt)
+2026-01-25 09:42:47 | INFO | Step 500: loss=0.4449 | IF_loss=0.5034, MQ_loss=0.3864 | acc=0.698 (IF=0.667, MQ=0.729) | lr=0.000009
+2026-01-25 09:44:34 | INFO |
+============================================================
+Validation Results (took 6.93s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7139
+  Quality Acc: 0.7601
+  Average Acc: 0.7370
+  Total Loss: 0.6450
+  Instruction Loss: 0.6969
+  Quality Loss: 0.5930
+============================================================
+2026-01-25 09:44:34 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_599.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:44:34 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_599.pt (428.0MB)
+2026-01-25 09:44:34 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_399.pt
+2026-01-25 09:44:34 | INFO | Best 3 checkpoints:
+2026-01-25 09:44:34 | INFO |   1. Step 599: acc=0.7370 (reward_model.best_599.pt)
+2026-01-25 09:44:34 | INFO |   2. Step 299: acc=0.7341 (reward_model.best_299.pt)
+2026-01-25 09:44:34 | INFO |   3. Step 499: acc=0.7312 (reward_model.best_499.pt)
+2026-01-25 09:44:35 | INFO | Step 600: loss=0.4510 | IF_loss=0.4687, MQ_loss=0.4333 | acc=0.812 (IF=0.792, MQ=0.833) | lr=0.000008
+2026-01-25 09:46:19 | INFO |
+============================================================
+Validation Results (took 7.72s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7139
+  Quality Acc: 0.7688
+  Average Acc: 0.7413
+  Total Loss: 0.6580
+  Instruction Loss: 0.7161
+  Quality Loss: 0.5999
+============================================================
+2026-01-25 09:46:19 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_699.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:46:19 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_699.pt (428.0MB)
+2026-01-25 09:46:19 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_499.pt
+2026-01-25 09:46:19 | INFO | Best 3 checkpoints:
+2026-01-25 09:46:19 | INFO |   1. Step 699: acc=0.7413 (reward_model.best_699.pt)
+2026-01-25 09:46:19 | INFO |   2. Step 599: acc=0.7370 (reward_model.best_599.pt)
+2026-01-25 09:46:19 | INFO |   3. Step 299: acc=0.7341 (reward_model.best_299.pt)
+2026-01-25 09:46:20 | INFO | Step 700: loss=0.2300 | IF_loss=0.3156, MQ_loss=0.1444 | acc=0.906 (IF=0.896, MQ=0.917) | lr=0.000007
+2026-01-25 09:48:06 | INFO |
+============================================================
+Validation Results (took 6.72s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7081
+  Quality Acc: 0.7630
+  Average Acc: 0.7355
+  Total Loss: 0.6754
+  Instruction Loss: 0.7388
+  Quality Loss: 0.6120
+============================================================
+2026-01-25 09:48:07 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_799.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:48:07 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_799.pt (428.0MB)
+2026-01-25 09:48:07 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_299.pt
+2026-01-25 09:48:07 | INFO | Best 3 checkpoints:
+2026-01-25 09:48:07 | INFO |   1. Step 699: acc=0.7413 (reward_model.best_699.pt)
+2026-01-25 09:48:07 | INFO |   2. Step 599: acc=0.7370 (reward_model.best_599.pt)
+2026-01-25 09:48:07 | INFO |   3. Step 799: acc=0.7355 (reward_model.best_799.pt)
+2026-01-25 09:48:08 | INFO | Step 800: loss=0.3552 | IF_loss=0.4192, MQ_loss=0.2911 | acc=0.844 (IF=0.833, MQ=0.854) | lr=0.000007
+2026-01-25 09:49:55 | INFO |
+============================================================
+Validation Results (took 6.63s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7081
+  Quality Acc: 0.7630
+  Average Acc: 0.7355
+  Total Loss: 0.6859
+  Instruction Loss: 0.7508
+  Quality Loss: 0.6209
+============================================================
+2026-01-25 09:49:55 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_899.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:49:55 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_899.pt (428.0MB)
+2026-01-25 09:49:55 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_899.pt
+2026-01-25 09:49:55 | INFO | Best 3 checkpoints:
+2026-01-25 09:49:55 | INFO |   1. Step 699: acc=0.7413 (reward_model.best_699.pt)
+2026-01-25 09:49:55 | INFO |   2. Step 599: acc=0.7370 (reward_model.best_599.pt)
+2026-01-25 09:49:55 | INFO |   3. Step 799: acc=0.7355 (reward_model.best_799.pt)
+2026-01-25 09:49:56 | INFO | Step 900: loss=0.3278 | IF_loss=0.3222, MQ_loss=0.3335 | acc=0.865 (IF=0.875, MQ=0.854) | lr=0.000006
+2026-01-25 09:51:41 | INFO |
+============================================================
+Validation Results (took 6.87s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7081
+  Quality Acc: 0.7630
+  Average Acc: 0.7355
+  Total Loss: 0.7067
+  Instruction Loss: 0.7755
+  Quality Loss: 0.6378
+============================================================
+2026-01-25 09:51:41 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_999.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:51:41 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_999.pt (428.0MB)
+2026-01-25 09:51:41 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_999.pt
+2026-01-25 09:51:41 | INFO | Best 3 checkpoints:
+2026-01-25 09:51:41 | INFO |   1. Step 699: acc=0.7413 (reward_model.best_699.pt)
+2026-01-25 09:51:41 | INFO |   2. Step 599: acc=0.7370 (reward_model.best_599.pt)
+2026-01-25 09:51:41 | INFO |   3. Step 799: acc=0.7355 (reward_model.best_799.pt)
+2026-01-25 09:51:42 | INFO | Step 1000: loss=0.2557 | IF_loss=0.2447, MQ_loss=0.2666 | acc=0.896 (IF=0.938, MQ=0.854) | lr=0.000005
+2026-01-25 09:53:32 | INFO |
+============================================================
+Validation Results (took 7.21s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7110
+  Quality Acc: 0.7659
+  Average Acc: 0.7384
+  Total Loss: 0.7211
+  Instruction Loss: 0.7922
+  Quality Loss: 0.6501
+============================================================
+2026-01-25 09:53:32 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1099.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:53:32 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1099.pt (428.0MB)
+2026-01-25 09:53:32 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_799.pt
+2026-01-25 09:53:32 | INFO | Best 3 checkpoints:
+2026-01-25 09:53:32 | INFO |   1. Step 699: acc=0.7413 (reward_model.best_699.pt)
+2026-01-25 09:53:32 | INFO |   2. Step 1099: acc=0.7384 (reward_model.best_1099.pt)
+2026-01-25 09:53:32 | INFO |   3. Step 599: acc=0.7370 (reward_model.best_599.pt)
+2026-01-25 09:53:33 | INFO | Step 1100: loss=0.2468 | IF_loss=0.2882, MQ_loss=0.2053 | acc=0.875 (IF=0.875, MQ=0.875) | lr=0.000004
+2026-01-25 09:55:16 | INFO |
+============================================================
+Validation Results (took 7.04s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7081
+  Quality Acc: 0.7688
+  Average Acc: 0.7384
+  Total Loss: 0.7338
+  Instruction Loss: 0.8081
+  Quality Loss: 0.6596
+============================================================
+2026-01-25 09:55:16 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1199.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:55:17 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1199.pt (428.0MB)
+2026-01-25 09:55:17 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_599.pt
+2026-01-25 09:55:17 | INFO | Best 3 checkpoints:
+2026-01-25 09:55:17 | INFO |   1. Step 699: acc=0.7413 (reward_model.best_699.pt)
+2026-01-25 09:55:17 | INFO |   2. Step 1099: acc=0.7384 (reward_model.best_1099.pt)
+2026-01-25 09:55:17 | INFO |   3. Step 1199: acc=0.7384 (reward_model.best_1199.pt)
+2026-01-25 09:55:18 | INFO | Step 1200: loss=0.2555 | IF_loss=0.3150, MQ_loss=0.1960 | acc=0.833 (IF=0.812, MQ=0.854) | lr=0.000003
+2026-01-25 09:57:06 | INFO |
+============================================================
+Validation Results (took 6.87s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7081
+  Quality Acc: 0.7659
+  Average Acc: 0.7370
+  Total Loss: 0.7409
+  Instruction Loss: 0.8178
+  Quality Loss: 0.6641
+============================================================
+2026-01-25 09:57:06 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1299.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:57:07 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1299.pt (428.0MB)
+2026-01-25 09:57:07 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1299.pt
+2026-01-25 09:57:07 | INFO | Best 3 checkpoints:
+2026-01-25 09:57:07 | INFO |   1. Step 699: acc=0.7413 (reward_model.best_699.pt)
+2026-01-25 09:57:07 | INFO |   2. Step 1099: acc=0.7384 (reward_model.best_1099.pt)
+2026-01-25 09:57:07 | INFO |   3. Step 1199: acc=0.7384 (reward_model.best_1199.pt)
+2026-01-25 09:57:08 | INFO | Step 1300: loss=0.3035 | IF_loss=0.2872, MQ_loss=0.3198 | acc=0.865 (IF=0.854, MQ=0.875) | lr=0.000003
+2026-01-25 09:58:54 | INFO |
+============================================================
+Validation Results (took 8.06s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7052
+  Quality Acc: 0.7659
+  Average Acc: 0.7355
+  Total Loss: 0.7497
+  Instruction Loss: 0.8259
+  Quality Loss: 0.6735
+============================================================
+2026-01-25 09:58:55 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1399.pt (filtered to 38.584M trainable parameters)
+2026-01-25 09:58:55 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1399.pt (428.0MB)
+2026-01-25 09:58:55 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1399.pt
+2026-01-25 09:58:55 | INFO | Best 3 checkpoints:
+2026-01-25 09:58:55 | INFO |   1. Step 699: acc=0.7413 (reward_model.best_699.pt)
+2026-01-25 09:58:55 | INFO |   2. Step 1099: acc=0.7384 (reward_model.best_1099.pt)
+2026-01-25 09:58:55 | INFO |   3. Step 1199: acc=0.7384 (reward_model.best_1199.pt)
+2026-01-25 09:58:56 | INFO | Step 1400: loss=0.2354 | IF_loss=0.2780, MQ_loss=0.1928 | acc=0.917 (IF=0.896, MQ=0.938) | lr=0.000002
+2026-01-25 10:00:46 | INFO |
+============================================================
+Validation Results (took 6.79s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7052
+  Quality Acc: 0.7717
+  Average Acc: 0.7384
+  Total Loss: 0.7534
+  Instruction Loss: 0.8301
+  Quality Loss: 0.6767
+============================================================
+2026-01-25 10:00:46 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1499.pt (filtered to 38.584M trainable parameters)
+2026-01-25 10:00:46 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1499.pt (428.0MB)
+2026-01-25 10:00:46 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1499.pt
+2026-01-25 10:00:46 | INFO | Best 3 checkpoints:
+2026-01-25 10:00:46 | INFO |   1. Step 699: acc=0.7413 (reward_model.best_699.pt)
+2026-01-25 10:00:46 | INFO |   2. Step 1099: acc=0.7384 (reward_model.best_1099.pt)
+2026-01-25 10:00:46 | INFO |   3. Step 1199: acc=0.7384 (reward_model.best_1199.pt)
+2026-01-25 10:00:47 | INFO | Step 1500: loss=0.2509 | IF_loss=0.2888, MQ_loss=0.2131 | acc=0.875 (IF=0.875, MQ=0.875) | lr=0.000001
+2026-01-25 10:02:32 | INFO |
+============================================================
+Validation Results (took 7.11s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7081
+  Quality Acc: 0.7717
+  Average Acc: 0.7399
+  Total Loss: 0.7576
+  Instruction Loss: 0.8358
+  Quality Loss: 0.6793
+============================================================
+2026-01-25 10:02:32 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1599.pt (filtered to 38.584M trainable parameters)
+2026-01-25 10:02:33 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1599.pt (428.0MB)
+2026-01-25 10:02:33 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1199.pt
+2026-01-25 10:02:33 | INFO | Best 3 checkpoints:
+2026-01-25 10:02:33 | INFO |   1. Step 699: acc=0.7413 (reward_model.best_699.pt)
+2026-01-25 10:02:33 | INFO |   2. Step 1599: acc=0.7399 (reward_model.best_1599.pt)
+2026-01-25 10:02:33 | INFO |   3. Step 1099: acc=0.7384 (reward_model.best_1099.pt)
+2026-01-25 10:02:38 | INFO | Step 1600: loss=0.1956 | IF_loss=0.2453, MQ_loss=0.1458 | acc=0.938 (IF=0.896, MQ=0.979) | lr=0.000001
+2026-01-25 10:04:22 | INFO |
+============================================================
+Validation Results (took 7.02s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7023
+  Quality Acc: 0.7688
+  Average Acc: 0.7355
+  Total Loss: 0.7592
+  Instruction Loss: 0.8378
+  Quality Loss: 0.6806
+============================================================
+2026-01-25 10:04:22 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1699.pt (filtered to 38.584M trainable parameters)
+2026-01-25 10:04:22 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1699.pt (428.0MB)
+2026-01-25 10:04:22 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1699.pt
+2026-01-25 10:04:22 | INFO | Best 3 checkpoints:
+2026-01-25 10:04:22 | INFO |   1. Step 699: acc=0.7413 (reward_model.best_699.pt)
+2026-01-25 10:04:22 | INFO |   2. Step 1599: acc=0.7399 (reward_model.best_1599.pt)
+2026-01-25 10:04:22 | INFO |   3. Step 1099: acc=0.7384 (reward_model.best_1099.pt)
+2026-01-25 10:04:23 | INFO | Step 1700: loss=0.3023 | IF_loss=0.2025, MQ_loss=0.4021 | acc=0.854 (IF=0.917, MQ=0.792) | lr=0.000001
+2026-01-25 10:06:16 | INFO |
+============================================================
+Validation Results (took 7.44s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7023
+  Quality Acc: 0.7659
+  Average Acc: 0.7341
+  Total Loss: 0.7613
+  Instruction Loss: 0.8400
+  Quality Loss: 0.6826
+============================================================
+2026-01-25 10:06:16 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1799.pt (filtered to 38.584M trainable parameters)
+2026-01-25 10:06:16 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1799.pt (428.0MB)
+2026-01-25 10:06:16 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1799.pt
+2026-01-25 10:06:16 | INFO | Best 3 checkpoints:
+2026-01-25 10:06:16 | INFO |   1. Step 699: acc=0.7413 (reward_model.best_699.pt)
+2026-01-25 10:06:16 | INFO |   2. Step 1599: acc=0.7399 (reward_model.best_1599.pt)
+2026-01-25 10:06:16 | INFO |   3. Step 1099: acc=0.7384 (reward_model.best_1099.pt)
+2026-01-25 10:06:17 | INFO | Step 1800: loss=0.1655 | IF_loss=0.1916, MQ_loss=0.1395 | acc=0.896 (IF=0.875, MQ=0.917) | lr=0.000000
+2026-01-25 10:08:05 | INFO |
+============================================================
+Validation Results (took 7.05s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7023
+  Quality Acc: 0.7717
+  Average Acc: 0.7370
+  Total Loss: 0.7619
+  Instruction Loss: 0.8410
+  Quality Loss: 0.6828
+============================================================
+2026-01-25 10:08:05 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1899.pt (filtered to 38.584M trainable parameters)
+2026-01-25 10:08:05 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1899.pt (428.0MB)
+2026-01-25 10:08:05 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1899.pt
+2026-01-25 10:08:05 | INFO | Best 3 checkpoints:
+2026-01-25 10:08:05 | INFO |   1. Step 699: acc=0.7413 (reward_model.best_699.pt)
+2026-01-25 10:08:05 | INFO |   2. Step 1599: acc=0.7399 (reward_model.best_1599.pt)
+2026-01-25 10:08:05 | INFO |   3. Step 1099: acc=0.7384 (reward_model.best_1099.pt)
+2026-01-25 10:08:06 | INFO | Step 1900: loss=0.2225 | IF_loss=0.2413, MQ_loss=0.2037 | acc=0.896 (IF=0.875, MQ=0.917) | lr=0.000000
+2026-01-25 10:09:55 | INFO |
+============================================================
+Validation Results (took 7.58s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7023
+  Quality Acc: 0.7688
+  Average Acc: 0.7355
+  Total Loss: 0.7619
+  Instruction Loss: 0.8410
+  Quality Loss: 0.6827
+============================================================
+2026-01-25 10:09:55 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1999.pt (filtered to 38.584M trainable parameters)
+2026-01-25 10:09:55 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1999.pt (428.0MB)
+2026-01-25 10:09:55 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0933/ckpt/reward_model.best_1999.pt
+2026-01-25 10:09:55 | INFO | Best 3 checkpoints:
+2026-01-25 10:09:55 | INFO |   1. Step 699: acc=0.7413 (reward_model.best_699.pt)
+2026-01-25 10:09:55 | INFO |   2. Step 1599: acc=0.7399 (reward_model.best_1599.pt)
+2026-01-25 10:09:55 | INFO |   3. Step 1099: acc=0.7384 (reward_model.best_1099.pt)
+2026-01-25 10:09:55 | INFO | Training complete!
+2026-01-25 10:09:55 | INFO | Training complete!

20260125_0947_CA/config.yaml ADDED Viewed

	@@ -0,0 +1,142 @@

+DEVICES: '2'
+accelerate:
+  mixed_precision: bf16
+basics:
+  random_seed: 42
+  save_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human
+dataset:
+  audio_dropout:
+    apply_to_eval: true
+    apply_to_ref: true
+    enabled: true
+    eval_only_on_training: true
+    max_duration: 1500
+    min_duration: 200
+    train_mode: start
+  cache_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/tmp
+  db_path: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/backend/database.db
+  duration: 600.0
+  embedding_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/supervised_embeddings
+  max_samples: null
+  max_val_samples: null
+  metadata_jsonl: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/all_comparisons.jsonl
+  mode: raw_text_frozen_audio
+  preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/human_annotations/train.json
+  sample_rate: 24000
+  val_preference_file: null
+loss:
+  IF_ratio: 0.5
+  filter_ties: true
+  label_smoothing: 0.0
+  reduction: mean
+model:
+  attention_mode: SA
+  attn_dropout: 0.0
+  category_embeddings: null
+  dim: 768
+  dim_head: 64
+  downsample:
+    configs:
+      conv2_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv*2
+        use_layernorm: true
+      conv_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv
+        stage: 1
+        use_layernorm: true
+      glu_4x:
+        factor: 4
+        kernel_size: 5
+        kind: gluconv*2+pw
+        use_layernorm: true
+      mean:
+        factor: 2
+        kind: mean
+      mean_4x:
+        dropout: 0.0
+        factor: 30
+        kind: mean+mlp
+        mlp_ratio: 2.0
+      none:
+        factor: 1
+        kind: none
+    eval: mean_4x
+    ref: null
+    text: none
+  ff_dropout: 0.0
+  ff_mult: 4
+  freeze_audio: true
+  freeze_text: true
+  gradient_checkpointing: false
+  heads: 8
+  joint_tf_depth: 1
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+  mlp_dim: 768
+  mode: concat_text_late
+  model_name: OpenMuQ/MuQ-MuLan-large
+  name: reward
+  no_condition: false
+  null_embedding:
+    audio:
+      dropout: 0.5
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    text:
+      dropout: 0
+      length: 10
+  output_dim: 2
+  prompt_tf_depth: 4
+  sr: 24000
+  text_encoder:
+    name: muq_mulan
+    tune: null
+  text_lora_config: null
+  train_muq_depth: 0
+  train_muqmulan: false
+  use_audio: true
+  use_layer_idx: -1
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: CA
+train:
+  batch_size: 48
+  betas:
+  - 0.9
+  - 0.99
+  ema_decay: 0.9999
+  ema_update_every: 1
+  enable_gradient_checkpointing: true
+  force_clear_prev_results: false
+  grad_accum_every: 1
+  log_tensorboard: true
+  lr_schedule:
+    min_lr_ratio: 0.001
+    name: linear_cosine
+    total_steps: 2000
+    warmup_steps: 10
+  max_grad_norm: 1
+  mlp_lr: 1.0e-05
+  num_train_steps: 2000
+  num_valid_batches: null
+  num_workers: 8
+  other_lr: 1.0e-05
+  resume: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260123_1310/ckpt/reward_model.best_25999.pt
+  resume_optimizer: false
+  save_model_every: 2000
+  use_checkpoint_config: true
+  use_ema: false
+  use_lion: false
+  valid_batch_size: 20
+  valid_every: 100
+  valid_frac: 0.1
+  verify_weights_on_load: true
+validate_only: false

20260125_0947_CA/eval_results_0125_1703.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

20260125_0947_CA/reward_model/1769305674.1033533/events.out.tfevents.1769305674.MACLAB-S004.1592070.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5491cc26f71b367dacdcda2398f1629e1eb90969ee662e1e00c9c0e40d9ce02c
+size 503

20260125_0947_CA/reward_model/1769305674.1053352/hparams.yml ADDED Viewed

	@@ -0,0 +1,4 @@

+batch_size: 48
+grad_accum_every: 1
+learning_rate: 1.0e-05
+num_train_steps: 2000

20260125_0947_CA/reward_model/events.out.tfevents.1769305674.MACLAB-S004.1592070.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e55f888cb7afbd9e4d63134150e67da713c005819afe82f6f41ffd948a4993a8
+size 874266

20260125_0947_CA/train.20260125_0947_CA.log ADDED Viewed

	@@ -0,0 +1,438 @@

+2026-01-25 09:47:44 | INFO | Log file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/train.20260125_0947_CA.log
+2026-01-25 09:47:44 | INFO | Random seed set to 42
+2026-01-25 09:47:45 | INFO | Created RawTextFrozenAudioDataset with 3463 samples
+2026-01-25 09:47:45 | INFO | Split dataset into train (3117) and validation (346) sets (ratio: 10.00%)
+2026-01-25 09:47:45 | INFO | Will resume from checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260123_1310/ckpt/reward_model.best_25999.pt
+2026-01-25 09:47:45 | INFO | Using checkpoint config for model initialization (continue training mode)
+2026-01-25 09:47:52 | INFO | Created RewardAttentionModel with attention_mode=CA
+2026-01-25 09:47:52 | INFO | Created PreferenceLoss with filter_ties=True
+2026-01-25 09:47:52 | INFO | ✓ Gradient checkpointing enabled
+2026-01-25 09:47:52 | INFO | ✓ Audio cropping enabled: min=200, max=1500
+2026-01-25 09:47:52 | INFO |   Apply to eval: True, ref: True
+2026-01-25 09:47:52 | INFO |   Modes: train=random, val=start
+2026-01-25 09:47:52 | INFO | MLP head parameters: 1,186,563 params, lr=1e-05
+2026-01-25 09:47:52 | INFO | Other parameters: 20,092,674 params, lr=1e-05
+2026-01-25 09:47:52 | INFO | Using lr_schedule=linear_cosine warmup_steps=10 total_steps=2000
+2026-01-25 09:47:52 | INFO | Training with fixed validation set
+2026-01-25 09:47:52 | INFO | Train batch_size: 48, Valid batch_size: 20
+2026-01-25 09:47:53 | INFO | Missing keys (782): ['text_module.model.embeddings.word_embeddings.weight', 'text_module.model.embeddings.position_embeddings.weight', 'text_module.model.embeddings.token_type_embeddings.weight', 'text_module.model.embeddings.LayerNorm.weight', 'text_module.model.embeddings.LayerNorm.bias']...
+2026-01-25 09:47:53 | INFO | ✓ Starting from step 0 (transfer learning mode, ignoring checkpoint steps=25999)
+2026-01-25 09:47:53 | INFO | Resumed from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model/20260123_1310/ckpt/reward_model.best_25999.pt
+2026-01-25 09:47:53 | INFO | Parameters: 683.857M total, 21.279M trainable
+2026-01-25 09:47:53 | INFO |   Text encoder (frozen): 328.389M
+2026-01-25 09:47:53 | INFO |   Audio encoder (frozen): 334.189M
+2026-01-25 09:47:53 | INFO |   Other trainable: 21.279M
+2026-01-25 09:47:53 | INFO | ℹ No LoRA configuration detected
+2026-01-25 09:47:54 | INFO | ============================================================
+2026-01-25 09:47:54 | INFO | Ready to start training
+2026-01-25 09:47:54 | INFO | ============================================================
+2026-01-25 09:47:54 | INFO | Starting training from step 0
+2026-01-25 09:47:54 | INFO | ===== Accelerator / CUDA Debug Info =====
+2026-01-25 09:47:54 | INFO | accelerator.device = cuda
+2026-01-25 09:47:54 | INFO | mixed_precision = bf16
+2026-01-25 09:47:54 | INFO | distributed_type = NO
+2026-01-25 09:47:54 | INFO | num_processes = 1
+2026-01-25 09:47:54 | INFO | process_index = 0
+2026-01-25 09:47:54 | INFO | is_main_process = True
+2026-01-25 09:47:54 | INFO | torch.cuda.is_available() = True
+2026-01-25 09:47:54 | INFO | torch.cuda.device_count() = 1
+2026-01-25 09:47:54 | INFO | current_device = 0
+2026-01-25 09:47:54 | INFO | device_name = NVIDIA GeForce RTX 4090
+2026-01-25 09:47:54 | INFO | model parameter device = cuda:0
+2026-01-25 09:47:54 | INFO | Training for 2000.0 steps (~32 epochs, 64 steps/epoch)
+2026-01-25 09:47:54 | INFO |
+============================================================
+2026-01-25 09:47:54 | INFO | Running initial validation after resume...
+2026-01-25 09:47:54 | INFO | ============================================================
+2026-01-25 09:48:06 | INFO |
+============================================================
+Validation Results (took 12.13s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6503
+  Quality Acc: 0.6532
+  Average Acc: 0.6517
+  Total Loss: 1.2600
+  Instruction Loss: 1.2149
+  Quality Loss: 1.3051
+============================================================
+2026-01-25 09:48:06 | INFO | Initial validation complete.
+2026-01-25 09:48:12 | INFO | Step 0: loss=1.5130 | IF_loss=1.3189, MQ_loss=1.7072 | acc=0.656 (IF=0.667, MQ=0.646) | lr=0.000002
+2026-01-25 09:48:12 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.0.pt (filtered to 21.279M trainable parameters)
+2026-01-25 09:48:12 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.0.pt (229.9MB)
+2026-01-25 09:48:12 | INFO | Step 0: Saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.0.pt
+2026-01-25 09:50:17 | INFO |
+============================================================
+Validation Results (took 8.06s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6705
+  Quality Acc: 0.6965
+  Average Acc: 0.6835
+  Total Loss: 0.7808
+  Instruction Loss: 0.7905
+  Quality Loss: 0.7712
+============================================================
+2026-01-25 09:50:17 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_99.pt (filtered to 21.279M trainable parameters)
+2026-01-25 09:50:17 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_99.pt (229.9MB)
+2026-01-25 09:50:17 | INFO | Best 1 checkpoints:
+2026-01-25 09:50:17 | INFO |   1. Step 99: acc=0.6835 (reward_model.best_99.pt)
+2026-01-25 09:50:18 | INFO | Step 100: loss=0.7788 | IF_loss=0.7289, MQ_loss=0.8287 | acc=0.667 (IF=0.667, MQ=0.667) | lr=0.000010
+2026-01-25 09:52:28 | INFO |
+============================================================
+Validation Results (took 9.09s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7052
+  Quality Acc: 0.7370
+  Average Acc: 0.7211
+  Total Loss: 0.6198
+  Instruction Loss: 0.6420
+  Quality Loss: 0.5976
+============================================================
+2026-01-25 09:52:28 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_199.pt (filtered to 21.279M trainable parameters)
+2026-01-25 09:52:28 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_199.pt (229.9MB)
+2026-01-25 09:52:28 | INFO | Best 2 checkpoints:
+2026-01-25 09:52:28 | INFO |   1. Step 199: acc=0.7211 (reward_model.best_199.pt)
+2026-01-25 09:52:28 | INFO |   2. Step 99: acc=0.6835 (reward_model.best_99.pt)
+2026-01-25 09:52:29 | INFO | Step 200: loss=0.6449 | IF_loss=0.5494, MQ_loss=0.7404 | acc=0.646 (IF=0.646, MQ=0.646) | lr=0.000010
+2026-01-25 09:54:31 | INFO |
+============================================================
+Validation Results (took 8.43s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7052
+  Quality Acc: 0.7457
+  Average Acc: 0.7254
+  Total Loss: 0.5725
+  Instruction Loss: 0.6007
+  Quality Loss: 0.5443
+============================================================
+2026-01-25 09:54:31 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_299.pt (filtered to 21.279M trainable parameters)
+2026-01-25 09:54:31 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_299.pt (229.9MB)
+2026-01-25 09:54:31 | INFO | Best 3 checkpoints:
+2026-01-25 09:54:31 | INFO |   1. Step 299: acc=0.7254 (reward_model.best_299.pt)
+2026-01-25 09:54:31 | INFO |   2. Step 199: acc=0.7211 (reward_model.best_199.pt)
+2026-01-25 09:54:31 | INFO |   3. Step 99: acc=0.6835 (reward_model.best_99.pt)
+2026-01-25 09:54:33 | INFO | Step 300: loss=0.5330 | IF_loss=0.4058, MQ_loss=0.6601 | acc=0.750 (IF=0.792, MQ=0.708) | lr=0.000009
+2026-01-25 09:56:42 | INFO |
+============================================================
+Validation Results (took 8.75s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7081
+  Quality Acc: 0.7630
+  Average Acc: 0.7355
+  Total Loss: 0.5519
+  Instruction Loss: 0.5810
+  Quality Loss: 0.5228
+============================================================
+2026-01-25 09:56:42 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_399.pt (filtered to 21.279M trainable parameters)
+2026-01-25 09:56:42 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_399.pt (229.9MB)
+2026-01-25 09:56:42 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_99.pt
+2026-01-25 09:56:42 | INFO | Best 3 checkpoints:
+2026-01-25 09:56:42 | INFO |   1. Step 399: acc=0.7355 (reward_model.best_399.pt)
+2026-01-25 09:56:42 | INFO |   2. Step 299: acc=0.7254 (reward_model.best_299.pt)
+2026-01-25 09:56:42 | INFO |   3. Step 199: acc=0.7211 (reward_model.best_199.pt)
+2026-01-25 09:56:44 | INFO | Step 400: loss=0.5271 | IF_loss=0.4825, MQ_loss=0.5716 | acc=0.740 (IF=0.729, MQ=0.750) | lr=0.000009
+2026-01-25 09:58:49 | INFO |
+============================================================
+Validation Results (took 8.57s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7168
+  Quality Acc: 0.7746
+  Average Acc: 0.7457
+  Total Loss: 0.5440
+  Instruction Loss: 0.5747
+  Quality Loss: 0.5133
+============================================================
+2026-01-25 09:58:49 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_499.pt (filtered to 21.279M trainable parameters)
+2026-01-25 09:58:49 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_499.pt (229.9MB)
+2026-01-25 09:58:49 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_199.pt
+2026-01-25 09:58:49 | INFO | Best 3 checkpoints:
+2026-01-25 09:58:49 | INFO |   1. Step 499: acc=0.7457 (reward_model.best_499.pt)
+2026-01-25 09:58:49 | INFO |   2. Step 399: acc=0.7355 (reward_model.best_399.pt)
+2026-01-25 09:58:49 | INFO |   3. Step 299: acc=0.7254 (reward_model.best_299.pt)
+2026-01-25 09:58:50 | INFO | Step 500: loss=0.4747 | IF_loss=0.5236, MQ_loss=0.4259 | acc=0.708 (IF=0.688, MQ=0.729) | lr=0.000009
+2026-01-25 10:00:58 | INFO |
+============================================================
+Validation Results (took 8.22s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7197
+  Quality Acc: 0.7717
+  Average Acc: 0.7457
+  Total Loss: 0.5393
+  Instruction Loss: 0.5700
+  Quality Loss: 0.5086
+============================================================
+2026-01-25 10:00:58 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_599.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:00:59 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_599.pt (229.9MB)
+2026-01-25 10:00:59 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_299.pt
+2026-01-25 10:00:59 | INFO | Best 3 checkpoints:
+2026-01-25 10:00:59 | INFO |   1. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:00:59 | INFO |   2. Step 499: acc=0.7457 (reward_model.best_499.pt)
+2026-01-25 10:00:59 | INFO |   3. Step 399: acc=0.7355 (reward_model.best_399.pt)
+2026-01-25 10:01:00 | INFO | Step 600: loss=0.4197 | IF_loss=0.3952, MQ_loss=0.4441 | acc=0.729 (IF=0.750, MQ=0.708) | lr=0.000008
+2026-01-25 10:03:05 | INFO |
+============================================================
+Validation Results (took 8.34s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7168
+  Quality Acc: 0.7803
+  Average Acc: 0.7486
+  Total Loss: 0.5377
+  Instruction Loss: 0.5695
+  Quality Loss: 0.5060
+============================================================
+2026-01-25 10:03:05 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_699.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:03:05 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_699.pt (229.9MB)
+2026-01-25 10:03:05 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_399.pt
+2026-01-25 10:03:05 | INFO | Best 3 checkpoints:
+2026-01-25 10:03:05 | INFO |   1. Step 699: acc=0.7486 (reward_model.best_699.pt)
+2026-01-25 10:03:05 | INFO |   2. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:03:05 | INFO |   3. Step 499: acc=0.7457 (reward_model.best_499.pt)
+2026-01-25 10:03:07 | INFO | Step 700: loss=0.4059 | IF_loss=0.4302, MQ_loss=0.3815 | acc=0.833 (IF=0.812, MQ=0.854) | lr=0.000007
+2026-01-25 10:05:18 | INFO |
+============================================================
+Validation Results (took 8.63s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7139
+  Quality Acc: 0.7861
+  Average Acc: 0.7500
+  Total Loss: 0.5391
+  Instruction Loss: 0.5710
+  Quality Loss: 0.5071
+============================================================
+2026-01-25 10:05:18 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_799.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:05:18 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_799.pt (229.9MB)
+2026-01-25 10:05:18 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_499.pt
+2026-01-25 10:05:18 | INFO | Best 3 checkpoints:
+2026-01-25 10:05:18 | INFO |   1. Step 799: acc=0.7500 (reward_model.best_799.pt)
+2026-01-25 10:05:18 | INFO |   2. Step 699: acc=0.7486 (reward_model.best_699.pt)
+2026-01-25 10:05:18 | INFO |   3. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:05:20 | INFO | Step 800: loss=0.4310 | IF_loss=0.5054, MQ_loss=0.3567 | acc=0.812 (IF=0.750, MQ=0.875) | lr=0.000007
+2026-01-25 10:07:31 | INFO |
+============================================================
+Validation Results (took 8.70s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7139
+  Quality Acc: 0.7746
+  Average Acc: 0.7442
+  Total Loss: 0.5383
+  Instruction Loss: 0.5699
+  Quality Loss: 0.5067
+============================================================
+2026-01-25 10:07:31 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_899.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:07:31 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_899.pt (229.9MB)
+2026-01-25 10:07:31 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_899.pt
+2026-01-25 10:07:31 | INFO | Best 3 checkpoints:
+2026-01-25 10:07:31 | INFO |   1. Step 799: acc=0.7500 (reward_model.best_799.pt)
+2026-01-25 10:07:31 | INFO |   2. Step 699: acc=0.7486 (reward_model.best_699.pt)
+2026-01-25 10:07:31 | INFO |   3. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:07:33 | INFO | Step 900: loss=0.5193 | IF_loss=0.5695, MQ_loss=0.4690 | acc=0.677 (IF=0.625, MQ=0.729) | lr=0.000006
+2026-01-25 10:09:39 | INFO |
+============================================================
+Validation Results (took 8.45s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7139
+  Quality Acc: 0.7746
+  Average Acc: 0.7442
+  Total Loss: 0.5387
+  Instruction Loss: 0.5706
+  Quality Loss: 0.5068
+============================================================
+2026-01-25 10:09:39 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_999.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:09:39 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_999.pt (229.9MB)
+2026-01-25 10:09:39 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_999.pt
+2026-01-25 10:09:39 | INFO | Best 3 checkpoints:
+2026-01-25 10:09:39 | INFO |   1. Step 799: acc=0.7500 (reward_model.best_799.pt)
+2026-01-25 10:09:39 | INFO |   2. Step 699: acc=0.7486 (reward_model.best_699.pt)
+2026-01-25 10:09:39 | INFO |   3. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:09:40 | INFO | Step 1000: loss=0.3726 | IF_loss=0.3096, MQ_loss=0.4357 | acc=0.771 (IF=0.875, MQ=0.667) | lr=0.000005
+2026-01-25 10:11:48 | INFO |
+============================================================
+Validation Results (took 7.72s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7168
+  Quality Acc: 0.7688
+  Average Acc: 0.7428
+  Total Loss: 0.5390
+  Instruction Loss: 0.5712
+  Quality Loss: 0.5067
+============================================================
+2026-01-25 10:11:48 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1099.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:11:48 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1099.pt (229.9MB)
+2026-01-25 10:11:48 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1099.pt
+2026-01-25 10:11:48 | INFO | Best 3 checkpoints:
+2026-01-25 10:11:48 | INFO |   1. Step 799: acc=0.7500 (reward_model.best_799.pt)
+2026-01-25 10:11:48 | INFO |   2. Step 699: acc=0.7486 (reward_model.best_699.pt)
+2026-01-25 10:11:48 | INFO |   3. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:11:50 | INFO | Step 1100: loss=0.4897 | IF_loss=0.5040, MQ_loss=0.4754 | acc=0.802 (IF=0.792, MQ=0.812) | lr=0.000004
+2026-01-25 10:13:53 | INFO |
+============================================================
+Validation Results (took 8.01s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7168
+  Quality Acc: 0.7688
+  Average Acc: 0.7428
+  Total Loss: 0.5386
+  Instruction Loss: 0.5713
+  Quality Loss: 0.5059
+============================================================
+2026-01-25 10:13:53 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1199.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:13:53 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1199.pt (229.9MB)
+2026-01-25 10:13:53 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1199.pt
+2026-01-25 10:13:53 | INFO | Best 3 checkpoints:
+2026-01-25 10:13:53 | INFO |   1. Step 799: acc=0.7500 (reward_model.best_799.pt)
+2026-01-25 10:13:53 | INFO |   2. Step 699: acc=0.7486 (reward_model.best_699.pt)
+2026-01-25 10:13:53 | INFO |   3. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:13:54 | INFO | Step 1200: loss=0.4865 | IF_loss=0.5833, MQ_loss=0.3896 | acc=0.750 (IF=0.708, MQ=0.792) | lr=0.000003
+2026-01-25 10:16:00 | INFO |
+============================================================
+Validation Results (took 7.76s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7139
+  Quality Acc: 0.7688
+  Average Acc: 0.7413
+  Total Loss: 0.5391
+  Instruction Loss: 0.5722
+  Quality Loss: 0.5060
+============================================================
+2026-01-25 10:16:01 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1299.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:16:01 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1299.pt (229.9MB)
+2026-01-25 10:16:01 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1299.pt
+2026-01-25 10:16:01 | INFO | Best 3 checkpoints:
+2026-01-25 10:16:01 | INFO |   1. Step 799: acc=0.7500 (reward_model.best_799.pt)
+2026-01-25 10:16:01 | INFO |   2. Step 699: acc=0.7486 (reward_model.best_699.pt)
+2026-01-25 10:16:01 | INFO |   3. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:16:02 | INFO | Step 1300: loss=0.4948 | IF_loss=0.5460, MQ_loss=0.4435 | acc=0.750 (IF=0.688, MQ=0.812) | lr=0.000003
+2026-01-25 10:18:05 | INFO |
+============================================================
+Validation Results (took 8.29s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7139
+  Quality Acc: 0.7717
+  Average Acc: 0.7428
+  Total Loss: 0.5395
+  Instruction Loss: 0.5728
+  Quality Loss: 0.5062
+============================================================
+2026-01-25 10:18:05 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1399.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:18:05 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1399.pt (229.9MB)
+2026-01-25 10:18:05 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1399.pt
+2026-01-25 10:18:05 | INFO | Best 3 checkpoints:
+2026-01-25 10:18:05 | INFO |   1. Step 799: acc=0.7500 (reward_model.best_799.pt)
+2026-01-25 10:18:05 | INFO |   2. Step 699: acc=0.7486 (reward_model.best_699.pt)
+2026-01-25 10:18:05 | INFO |   3. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:18:06 | INFO | Step 1400: loss=0.4470 | IF_loss=0.5541, MQ_loss=0.3399 | acc=0.812 (IF=0.750, MQ=0.875) | lr=0.000002
+2026-01-25 10:20:12 | INFO |
+============================================================
+Validation Results (took 7.85s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7139
+  Quality Acc: 0.7746
+  Average Acc: 0.7442
+  Total Loss: 0.5399
+  Instruction Loss: 0.5734
+  Quality Loss: 0.5064
+============================================================
+2026-01-25 10:20:12 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1499.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:20:12 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1499.pt (229.9MB)
+2026-01-25 10:20:12 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1499.pt
+2026-01-25 10:20:12 | INFO | Best 3 checkpoints:
+2026-01-25 10:20:12 | INFO |   1. Step 799: acc=0.7500 (reward_model.best_799.pt)
+2026-01-25 10:20:12 | INFO |   2. Step 699: acc=0.7486 (reward_model.best_699.pt)
+2026-01-25 10:20:12 | INFO |   3. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:20:13 | INFO | Step 1500: loss=0.3559 | IF_loss=0.4083, MQ_loss=0.3035 | acc=0.833 (IF=0.792, MQ=0.875) | lr=0.000001
+2026-01-25 10:22:17 | INFO |
+============================================================
+Validation Results (took 9.35s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7139
+  Quality Acc: 0.7688
+  Average Acc: 0.7413
+  Total Loss: 0.5398
+  Instruction Loss: 0.5737
+  Quality Loss: 0.5060
+============================================================
+2026-01-25 10:22:17 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1599.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:22:17 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1599.pt (229.9MB)
+2026-01-25 10:22:17 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1599.pt
+2026-01-25 10:22:17 | INFO | Best 3 checkpoints:
+2026-01-25 10:22:17 | INFO |   1. Step 799: acc=0.7500 (reward_model.best_799.pt)
+2026-01-25 10:22:17 | INFO |   2. Step 699: acc=0.7486 (reward_model.best_699.pt)
+2026-01-25 10:22:17 | INFO |   3. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:22:23 | INFO | Step 1600: loss=0.3699 | IF_loss=0.4525, MQ_loss=0.2873 | acc=0.875 (IF=0.854, MQ=0.896) | lr=0.000001
+2026-01-25 10:24:25 | INFO |
+============================================================
+Validation Results (took 7.95s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7110
+  Quality Acc: 0.7717
+  Average Acc: 0.7413
+  Total Loss: 0.5399
+  Instruction Loss: 0.5738
+  Quality Loss: 0.5060
+============================================================
+2026-01-25 10:24:25 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1699.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:24:26 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1699.pt (229.9MB)
+2026-01-25 10:24:26 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1699.pt
+2026-01-25 10:24:26 | INFO | Best 3 checkpoints:
+2026-01-25 10:24:26 | INFO |   1. Step 799: acc=0.7500 (reward_model.best_799.pt)
+2026-01-25 10:24:26 | INFO |   2. Step 699: acc=0.7486 (reward_model.best_699.pt)
+2026-01-25 10:24:26 | INFO |   3. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:24:27 | INFO | Step 1700: loss=0.3662 | IF_loss=0.3525, MQ_loss=0.3800 | acc=0.802 (IF=0.792, MQ=0.812) | lr=0.000001
+2026-01-25 10:26:33 | INFO |
+============================================================
+Validation Results (took 7.78s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7139
+  Quality Acc: 0.7717
+  Average Acc: 0.7428
+  Total Loss: 0.5401
+  Instruction Loss: 0.5740
+  Quality Loss: 0.5063
+============================================================
+2026-01-25 10:26:33 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1799.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:26:33 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1799.pt (229.9MB)
+2026-01-25 10:26:33 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1799.pt
+2026-01-25 10:26:33 | INFO | Best 3 checkpoints:
+2026-01-25 10:26:33 | INFO |   1. Step 799: acc=0.7500 (reward_model.best_799.pt)
+2026-01-25 10:26:33 | INFO |   2. Step 699: acc=0.7486 (reward_model.best_699.pt)
+2026-01-25 10:26:33 | INFO |   3. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:26:34 | INFO | Step 1800: loss=0.4003 | IF_loss=0.4304, MQ_loss=0.3701 | acc=0.823 (IF=0.792, MQ=0.854) | lr=0.000000
+2026-01-25 10:28:34 | INFO |
+============================================================
+Validation Results (took 8.07s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7139
+  Quality Acc: 0.7717
+  Average Acc: 0.7428
+  Total Loss: 0.5401
+  Instruction Loss: 0.5739
+  Quality Loss: 0.5063
+============================================================
+2026-01-25 10:28:34 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1899.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:28:34 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1899.pt (229.9MB)
+2026-01-25 10:28:34 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1899.pt
+2026-01-25 10:28:34 | INFO | Best 3 checkpoints:
+2026-01-25 10:28:34 | INFO |   1. Step 799: acc=0.7500 (reward_model.best_799.pt)
+2026-01-25 10:28:34 | INFO |   2. Step 699: acc=0.7486 (reward_model.best_699.pt)
+2026-01-25 10:28:34 | INFO |   3. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:28:35 | INFO | Step 1900: loss=0.4593 | IF_loss=0.4853, MQ_loss=0.4333 | acc=0.760 (IF=0.750, MQ=0.771) | lr=0.000000
+2026-01-25 10:30:41 | INFO |
+============================================================
+Validation Results (took 7.71s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7139
+  Quality Acc: 0.7717
+  Average Acc: 0.7428
+  Total Loss: 0.5400
+  Instruction Loss: 0.5738
+  Quality Loss: 0.5063
+============================================================
+2026-01-25 10:30:41 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1999.pt (filtered to 21.279M trainable parameters)
+2026-01-25 10:30:41 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1999.pt (229.9MB)
+2026-01-25 10:30:41 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_0947_CA/ckpt/reward_model.best_1999.pt
+2026-01-25 10:30:41 | INFO | Best 3 checkpoints:
+2026-01-25 10:30:41 | INFO |   1. Step 799: acc=0.7500 (reward_model.best_799.pt)
+2026-01-25 10:30:41 | INFO |   2. Step 699: acc=0.7486 (reward_model.best_699.pt)
+2026-01-25 10:30:41 | INFO |   3. Step 599: acc=0.7457 (reward_model.best_599.pt)
+2026-01-25 10:30:41 | INFO | Training complete!
+2026-01-25 10:30:41 | INFO | Training complete!

20260125_1117/config.yaml ADDED Viewed

	@@ -0,0 +1,142 @@

+DEVICES: '5'
+accelerate:
+  mixed_precision: bf16
+basics:
+  random_seed: 42
+  save_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human
+dataset:
+  audio_dropout:
+    apply_to_eval: true
+    apply_to_ref: true
+    enabled: true
+    eval_only_on_training: true
+    max_duration: 1500
+    min_duration: 200
+    train_mode: start
+  cache_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/tmp
+  db_path: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/backend/database.db
+  duration: 600.0
+  embedding_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/supervised_embeddings
+  max_samples: null
+  max_val_samples: null
+  metadata_jsonl: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/all_comparisons.jsonl
+  mode: raw_text_frozen_audio
+  preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/human_annotations/train.json
+  sample_rate: 24000
+  val_preference_file: null
+loss:
+  IF_ratio: 0.5
+  filter_ties: true
+  label_smoothing: 0.0
+  reduction: mean
+model:
+  attention_mode: SA
+  attn_dropout: 0.0
+  category_embeddings: null
+  dim: 768
+  dim_head: 64
+  downsample:
+    configs:
+      conv2_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv*2
+        use_layernorm: true
+      conv_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv
+        stage: 1
+        use_layernorm: true
+      glu_4x:
+        factor: 4
+        kernel_size: 5
+        kind: gluconv*2+pw
+        use_layernorm: true
+      mean:
+        factor: 2
+        kind: mean
+      mean_4x:
+        dropout: 0.0
+        factor: 30
+        kind: mean+mlp
+        mlp_ratio: 2.0
+      none:
+        factor: 1
+        kind: none
+    eval: mean_4x
+    ref: null
+    text: none
+  ff_dropout: 0.0
+  ff_mult: 4
+  freeze_audio: true
+  freeze_text: true
+  gradient_checkpointing: false
+  heads: 8
+  joint_tf_depth: 1
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+  mlp_dim: 768
+  mode: concat_text_late
+  model_name: OpenMuQ/MuQ-MuLan-large
+  name: reward
+  no_condition: false
+  null_embedding:
+    audio:
+      dropout: 0.5
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    text:
+      dropout: 0
+      length: 10
+  output_dim: 2
+  prompt_tf_depth: 4
+  sr: 24000
+  text_encoder:
+    name: muq_mulan
+    tune: null
+  text_lora_config: null
+  train_muq_depth: 0
+  train_muqmulan: false
+  use_audio: true
+  use_layer_idx: -1
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: null
+train:
+  batch_size: 48
+  betas:
+  - 0.9
+  - 0.99
+  ema_decay: 0.9999
+  ema_update_every: 1
+  enable_gradient_checkpointing: true
+  force_clear_prev_results: false
+  grad_accum_every: 1
+  log_tensorboard: true
+  lr_schedule:
+    min_lr_ratio: 0.001
+    name: linear_cosine
+    total_steps: 2000
+    warmup_steps: 10
+  max_grad_norm: 1
+  mlp_lr: 1.0e-05
+  num_train_steps: 2000
+  num_valid_batches: null
+  num_workers: 8
+  other_lr: 1.0e-05
+  resume: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/contrastive/20260123_1403_tune_mulan_transformer/ckpt/reward_model.best_27252.pt
+  resume_optimizer: false
+  save_model_every: 2000
+  use_checkpoint_config: true
+  use_ema: false
+  use_lion: false
+  valid_batch_size: 20
+  valid_every: 100
+  valid_frac: 0.1
+  verify_weights_on_load: true
+validate_only: false

20260125_1117/reward_model/1769311084.1305242/events.out.tfevents.1769311084.MACLAB-S004.2009526.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:822b6fceabde39473c4a729e682f16fe698e1ddda674a89dfd54e6dae8b6b5bc
+size 503

20260125_1117/reward_model/1769311084.1322424/hparams.yml ADDED Viewed

	@@ -0,0 +1,4 @@

+batch_size: 48
+grad_accum_every: 1
+learning_rate: 1.0e-05
+num_train_steps: 2000

20260125_1117/reward_model/events.out.tfevents.1769311084.MACLAB-S004.2009526.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5324959f8755a329daa5765d181b2712b8dc36505a84bd25731dd5d0b8969191
+size 874266

20260125_1117/train.20260125_1117.log ADDED Viewed

	@@ -0,0 +1,441 @@

+2026-01-25 11:17:53 | INFO | Log file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/train.20260125_1117.log
+2026-01-25 11:17:53 | INFO | Random seed set to 42
+2026-01-25 11:17:54 | INFO | Created RawTextFrozenAudioDataset with 3463 samples
+2026-01-25 11:17:54 | INFO | Split dataset into train (3117) and validation (346) sets (ratio: 10.00%)
+2026-01-25 11:17:54 | INFO | Will resume from checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/contrastive/20260123_1403_tune_mulan_transformer/ckpt/reward_model.best_27252.pt
+2026-01-25 11:17:54 | INFO | Using checkpoint config for model initialization (continue training mode)
+2026-01-25 11:18:01 | INFO | Created RewardAttentionModel with attention_mode=CA
+2026-01-25 11:18:01 | INFO | Created PreferenceLoss with filter_ties=True
+2026-01-25 11:18:02 | INFO | ✓ Gradient checkpointing enabled
+2026-01-25 11:18:02 | INFO | ✓ Audio cropping enabled: min=200, max=1500
+2026-01-25 11:18:02 | INFO |   Apply to eval: True, ref: True
+2026-01-25 11:18:02 | INFO |   Modes: train=random, val=start
+2026-01-25 11:18:02 | INFO | MLP head parameters: 1,186,563 params, lr=1e-05
+2026-01-25 11:18:02 | INFO | Other parameters: 70,437,634 params, lr=1e-05
+2026-01-25 11:18:02 | INFO | Using lr_schedule=linear_cosine warmup_steps=10 total_steps=2000
+2026-01-25 11:18:02 | INFO | Training with fixed validation set
+2026-01-25 11:18:02 | INFO | Train batch_size: 48, Valid batch_size: 20
+2026-01-25 11:18:03 | INFO | Skipping score_projector.3.weight: shape mismatch (ckpt torch.Size([1, 768]) vs model torch.Size([2, 768])), will use randomly initialized weights
+2026-01-25 11:18:03 | INFO | Skipping score_projector.3.bias: shape mismatch (ckpt torch.Size([1]) vs model torch.Size([2])), will use randomly initialized weights
+2026-01-25 11:18:03 | INFO | Missing keys (712): ['score_projector.3.weight', 'score_projector.3.bias', 'text_module.model.embeddings.word_embeddings.weight', 'text_module.model.embeddings.position_embeddings.weight', 'text_module.model.embeddings.token_type_embeddings.weight']...
+2026-01-25 11:18:03 | INFO | ✓ Starting from step 0 (transfer learning mode, ignoring checkpoint steps=27252)
+2026-01-25 11:18:03 | INFO | Resumed from /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/contrastive/20260123_1403_tune_mulan_transformer/ckpt/reward_model.best_27252.pt
+2026-01-25 11:18:03 | INFO | Parameters: 683.857M total, 71.624M trainable
+2026-01-25 11:18:03 | INFO |   Text encoder (frozen): 278.044M
+2026-01-25 11:18:03 | INFO |   Text encoder (trainable): 50.345M
+2026-01-25 11:18:03 | INFO |   Audio encoder (frozen): 334.189M
+2026-01-25 11:18:03 | INFO |   Other trainable: 21.279M
+2026-01-25 11:18:03 | INFO | ℹ No LoRA configuration detected
+2026-01-25 11:18:04 | INFO | ============================================================
+2026-01-25 11:18:04 | INFO | Ready to start training
+2026-01-25 11:18:04 | INFO | ============================================================
+2026-01-25 11:18:04 | INFO | Starting training from step 0
+2026-01-25 11:18:04 | INFO | ===== Accelerator / CUDA Debug Info =====
+2026-01-25 11:18:04 | INFO | accelerator.device = cuda
+2026-01-25 11:18:04 | INFO | mixed_precision = bf16
+2026-01-25 11:18:04 | INFO | distributed_type = NO
+2026-01-25 11:18:04 | INFO | num_processes = 1
+2026-01-25 11:18:04 | INFO | process_index = 0
+2026-01-25 11:18:04 | INFO | is_main_process = True
+2026-01-25 11:18:04 | INFO | torch.cuda.is_available() = True
+2026-01-25 11:18:04 | INFO | torch.cuda.device_count() = 1
+2026-01-25 11:18:04 | INFO | current_device = 0
+2026-01-25 11:18:04 | INFO | device_name = NVIDIA GeForce RTX 4090
+2026-01-25 11:18:04 | INFO | model parameter device = cuda:0
+2026-01-25 11:18:04 | INFO | Training for 2000.0 steps (~32 epochs, 64 steps/epoch)
+2026-01-25 11:18:04 | INFO |
+============================================================
+2026-01-25 11:18:04 | INFO | Running initial validation after resume...
+2026-01-25 11:18:04 | INFO | ============================================================
+2026-01-25 11:18:17 | INFO |
+============================================================
+Validation Results (took 13.32s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.5405
+  Quality Acc: 0.4740
+  Average Acc: 0.5072
+  Total Loss: 0.6589
+  Instruction Loss: 0.6537
+  Quality Loss: 0.6641
+============================================================
+2026-01-25 11:18:17 | INFO | Initial validation complete.
+2026-01-25 11:18:22 | INFO | Step 0: loss=0.6765 | IF_loss=0.6586, MQ_loss=0.6944 | acc=0.552 (IF=0.604, MQ=0.500) | lr=0.000002
+2026-01-25 11:18:23 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.0.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:18:23 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.0.pt (422.0MB)
+2026-01-25 11:18:23 | INFO | Step 0: Saved to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.0.pt
+2026-01-25 11:20:31 | INFO |
+============================================================
+Validation Results (took 8.99s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6763
+  Quality Acc: 0.6965
+  Average Acc: 0.6864
+  Total Loss: 0.5779
+  Instruction Loss: 0.6022
+  Quality Loss: 0.5537
+============================================================
+2026-01-25 11:20:31 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_99.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:20:31 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_99.pt (422.0MB)
+2026-01-25 11:20:31 | INFO | Best 1 checkpoints:
+2026-01-25 11:20:31 | INFO |   1. Step 99: acc=0.6864 (reward_model.best_99.pt)
+2026-01-25 11:20:32 | INFO | Step 100: loss=0.5965 | IF_loss=0.6046, MQ_loss=0.5884 | acc=0.688 (IF=0.646, MQ=0.729) | lr=0.000010
+2026-01-25 11:22:45 | INFO |
+============================================================
+Validation Results (took 9.25s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6821
+  Quality Acc: 0.7110
+  Average Acc: 0.6965
+  Total Loss: 0.5492
+  Instruction Loss: 0.5805
+  Quality Loss: 0.5180
+============================================================
+2026-01-25 11:22:45 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_199.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:22:45 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_199.pt (422.0MB)
+2026-01-25 11:22:45 | INFO | Best 2 checkpoints:
+2026-01-25 11:22:45 | INFO |   1. Step 199: acc=0.6965 (reward_model.best_199.pt)
+2026-01-25 11:22:45 | INFO |   2. Step 99: acc=0.6864 (reward_model.best_99.pt)
+2026-01-25 11:22:46 | INFO | Step 200: loss=0.5629 | IF_loss=0.5719, MQ_loss=0.5538 | acc=0.708 (IF=0.667, MQ=0.750) | lr=0.000010
+2026-01-25 11:24:58 | INFO |
+============================================================
+Validation Results (took 8.81s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.6879
+  Quality Acc: 0.7370
+  Average Acc: 0.7124
+  Total Loss: 0.5398
+  Instruction Loss: 0.5714
+  Quality Loss: 0.5082
+============================================================
+2026-01-25 11:24:58 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_299.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:24:58 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_299.pt (422.0MB)
+2026-01-25 11:24:58 | INFO | Best 3 checkpoints:
+2026-01-25 11:24:58 | INFO |   1. Step 299: acc=0.7124 (reward_model.best_299.pt)
+2026-01-25 11:24:58 | INFO |   2. Step 199: acc=0.6965 (reward_model.best_199.pt)
+2026-01-25 11:24:58 | INFO |   3. Step 99: acc=0.6864 (reward_model.best_99.pt)
+2026-01-25 11:24:59 | INFO | Step 300: loss=0.4994 | IF_loss=0.5058, MQ_loss=0.4929 | acc=0.802 (IF=0.812, MQ=0.792) | lr=0.000009
+2026-01-25 11:27:15 | INFO |
+============================================================
+Validation Results (took 8.79s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7023
+  Quality Acc: 0.7312
+  Average Acc: 0.7168
+  Total Loss: 0.5318
+  Instruction Loss: 0.5617
+  Quality Loss: 0.5019
+============================================================
+2026-01-25 11:27:15 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_399.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:27:16 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_399.pt (422.0MB)
+2026-01-25 11:27:16 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_99.pt
+2026-01-25 11:27:16 | INFO | Best 3 checkpoints:
+2026-01-25 11:27:16 | INFO |   1. Step 399: acc=0.7168 (reward_model.best_399.pt)
+2026-01-25 11:27:16 | INFO |   2. Step 299: acc=0.7124 (reward_model.best_299.pt)
+2026-01-25 11:27:16 | INFO |   3. Step 199: acc=0.6965 (reward_model.best_199.pt)
+2026-01-25 11:27:17 | INFO | Step 400: loss=0.4955 | IF_loss=0.4808, MQ_loss=0.5101 | acc=0.698 (IF=0.667, MQ=0.729) | lr=0.000009
+2026-01-25 11:29:28 | INFO |
+============================================================
+Validation Results (took 9.06s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7110
+  Quality Acc: 0.7254
+  Average Acc: 0.7182
+  Total Loss: 0.5266
+  Instruction Loss: 0.5560
+  Quality Loss: 0.4972
+============================================================
+2026-01-25 11:29:28 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_499.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:29:28 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_499.pt (422.0MB)
+2026-01-25 11:29:28 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_199.pt
+2026-01-25 11:29:28 | INFO | Best 3 checkpoints:
+2026-01-25 11:29:28 | INFO |   1. Step 499: acc=0.7182 (reward_model.best_499.pt)
+2026-01-25 11:29:28 | INFO |   2. Step 399: acc=0.7168 (reward_model.best_399.pt)
+2026-01-25 11:29:28 | INFO |   3. Step 299: acc=0.7124 (reward_model.best_299.pt)
+2026-01-25 11:29:29 | INFO | Step 500: loss=0.4977 | IF_loss=0.5734, MQ_loss=0.4219 | acc=0.688 (IF=0.667, MQ=0.708) | lr=0.000009
+2026-01-25 11:31:41 | INFO |
+============================================================
+Validation Results (took 8.66s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7168
+  Quality Acc: 0.7283
+  Average Acc: 0.7225
+  Total Loss: 0.5231
+  Instruction Loss: 0.5528
+  Quality Loss: 0.4934
+============================================================
+2026-01-25 11:31:41 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_599.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:31:41 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_599.pt (422.0MB)
+2026-01-25 11:31:41 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_299.pt
+2026-01-25 11:31:41 | INFO | Best 3 checkpoints:
+2026-01-25 11:31:41 | INFO |   1. Step 599: acc=0.7225 (reward_model.best_599.pt)
+2026-01-25 11:31:41 | INFO |   2. Step 499: acc=0.7182 (reward_model.best_499.pt)
+2026-01-25 11:31:41 | INFO |   3. Step 399: acc=0.7168 (reward_model.best_399.pt)
+2026-01-25 11:31:43 | INFO | Step 600: loss=0.5072 | IF_loss=0.4980, MQ_loss=0.5164 | acc=0.698 (IF=0.688, MQ=0.708) | lr=0.000008
+2026-01-25 11:33:51 | INFO |
+============================================================
+Validation Results (took 9.03s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7168
+  Quality Acc: 0.7341
+  Average Acc: 0.7254
+  Total Loss: 0.5201
+  Instruction Loss: 0.5493
+  Quality Loss: 0.4909
+============================================================
+2026-01-25 11:33:52 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_699.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:33:52 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_699.pt (422.0MB)
+2026-01-25 11:33:52 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_399.pt
+2026-01-25 11:33:52 | INFO | Best 3 checkpoints:
+2026-01-25 11:33:52 | INFO |   1. Step 699: acc=0.7254 (reward_model.best_699.pt)
+2026-01-25 11:33:52 | INFO |   2. Step 599: acc=0.7225 (reward_model.best_599.pt)
+2026-01-25 11:33:52 | INFO |   3. Step 499: acc=0.7182 (reward_model.best_499.pt)
+2026-01-25 11:33:53 | INFO | Step 700: loss=0.4063 | IF_loss=0.4648, MQ_loss=0.3477 | acc=0.833 (IF=0.812, MQ=0.854) | lr=0.000007
+2026-01-25 11:36:07 | INFO |
+============================================================
+Validation Results (took 8.47s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7168
+  Quality Acc: 0.7341
+  Average Acc: 0.7254
+  Total Loss: 0.5200
+  Instruction Loss: 0.5501
+  Quality Loss: 0.4900
+============================================================
+2026-01-25 11:36:07 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_799.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:36:07 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_799.pt (422.0MB)
+2026-01-25 11:36:07 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_499.pt
+2026-01-25 11:36:07 | INFO | Best 3 checkpoints:
+2026-01-25 11:36:07 | INFO |   1. Step 699: acc=0.7254 (reward_model.best_699.pt)
+2026-01-25 11:36:07 | INFO |   2. Step 799: acc=0.7254 (reward_model.best_799.pt)
+2026-01-25 11:36:07 | INFO |   3. Step 599: acc=0.7225 (reward_model.best_599.pt)
+2026-01-25 11:36:08 | INFO | Step 800: loss=0.4288 | IF_loss=0.4825, MQ_loss=0.3751 | acc=0.740 (IF=0.688, MQ=0.792) | lr=0.000007
+2026-01-25 11:38:19 | INFO |
+============================================================
+Validation Results (took 8.31s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7225
+  Quality Acc: 0.7370
+  Average Acc: 0.7298
+  Total Loss: 0.5181
+  Instruction Loss: 0.5471
+  Quality Loss: 0.4891
+============================================================
+2026-01-25 11:38:19 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_899.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:38:19 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_899.pt (422.0MB)
+2026-01-25 11:38:19 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_599.pt
+2026-01-25 11:38:19 | INFO | Best 3 checkpoints:
+2026-01-25 11:38:19 | INFO |   1. Step 899: acc=0.7298 (reward_model.best_899.pt)
+2026-01-25 11:38:19 | INFO |   2. Step 699: acc=0.7254 (reward_model.best_699.pt)
+2026-01-25 11:38:19 | INFO |   3. Step 799: acc=0.7254 (reward_model.best_799.pt)
+2026-01-25 11:38:21 | INFO | Step 900: loss=0.5461 | IF_loss=0.6051, MQ_loss=0.4871 | acc=0.708 (IF=0.625, MQ=0.792) | lr=0.000006
+2026-01-25 11:40:29 | INFO |
+============================================================
+Validation Results (took 9.00s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7225
+  Quality Acc: 0.7370
+  Average Acc: 0.7298
+  Total Loss: 0.5177
+  Instruction Loss: 0.5469
+  Quality Loss: 0.4885
+============================================================
+2026-01-25 11:40:30 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_999.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:40:30 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_999.pt (422.0MB)
+2026-01-25 11:40:30 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_799.pt
+2026-01-25 11:40:30 | INFO | Best 3 checkpoints:
+2026-01-25 11:40:30 | INFO |   1. Step 899: acc=0.7298 (reward_model.best_899.pt)
+2026-01-25 11:40:30 | INFO |   2. Step 999: acc=0.7298 (reward_model.best_999.pt)
+2026-01-25 11:40:30 | INFO |   3. Step 699: acc=0.7254 (reward_model.best_699.pt)
+2026-01-25 11:40:31 | INFO | Step 1000: loss=0.4418 | IF_loss=0.4662, MQ_loss=0.4175 | acc=0.708 (IF=0.688, MQ=0.729) | lr=0.000005
+2026-01-25 11:42:40 | INFO |
+============================================================
+Validation Results (took 8.11s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7168
+  Quality Acc: 0.7370
+  Average Acc: 0.7269
+  Total Loss: 0.5173
+  Instruction Loss: 0.5461
+  Quality Loss: 0.4885
+============================================================
+2026-01-25 11:42:41 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1099.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:42:41 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1099.pt (422.0MB)
+2026-01-25 11:42:41 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_699.pt
+2026-01-25 11:42:41 | INFO | Best 3 checkpoints:
+2026-01-25 11:42:41 | INFO |   1. Step 899: acc=0.7298 (reward_model.best_899.pt)
+2026-01-25 11:42:41 | INFO |   2. Step 999: acc=0.7298 (reward_model.best_999.pt)
+2026-01-25 11:42:41 | INFO |   3. Step 1099: acc=0.7269 (reward_model.best_1099.pt)
+2026-01-25 11:42:42 | INFO | Step 1100: loss=0.4653 | IF_loss=0.5016, MQ_loss=0.4290 | acc=0.760 (IF=0.708, MQ=0.812) | lr=0.000004
+2026-01-25 11:44:51 | INFO |
+============================================================
+Validation Results (took 8.91s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7254
+  Quality Acc: 0.7370
+  Average Acc: 0.7312
+  Total Loss: 0.5172
+  Instruction Loss: 0.5464
+  Quality Loss: 0.4879
+============================================================
+2026-01-25 11:44:51 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1199.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:44:52 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1199.pt (422.0MB)
+2026-01-25 11:44:52 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1099.pt
+2026-01-25 11:44:52 | INFO | Best 3 checkpoints:
+2026-01-25 11:44:52 | INFO |   1. Step 1199: acc=0.7312 (reward_model.best_1199.pt)
+2026-01-25 11:44:52 | INFO |   2. Step 899: acc=0.7298 (reward_model.best_899.pt)
+2026-01-25 11:44:52 | INFO |   3. Step 999: acc=0.7298 (reward_model.best_999.pt)
+2026-01-25 11:44:53 | INFO | Step 1200: loss=0.5002 | IF_loss=0.5816, MQ_loss=0.4188 | acc=0.760 (IF=0.688, MQ=0.833) | lr=0.000003
+2026-01-25 11:47:08 | INFO |
+============================================================
+Validation Results (took 8.34s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7254
+  Quality Acc: 0.7399
+  Average Acc: 0.7327
+  Total Loss: 0.5170
+  Instruction Loss: 0.5456
+  Quality Loss: 0.4884
+============================================================
+2026-01-25 11:47:08 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1299.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:47:08 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1299.pt (422.0MB)
+2026-01-25 11:47:08 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_999.pt
+2026-01-25 11:47:08 | INFO | Best 3 checkpoints:
+2026-01-25 11:47:08 | INFO |   1. Step 1299: acc=0.7327 (reward_model.best_1299.pt)
+2026-01-25 11:47:08 | INFO |   2. Step 1199: acc=0.7312 (reward_model.best_1199.pt)
+2026-01-25 11:47:08 | INFO |   3. Step 899: acc=0.7298 (reward_model.best_899.pt)
+2026-01-25 11:47:10 | INFO | Step 1300: loss=0.5330 | IF_loss=0.6011, MQ_loss=0.4650 | acc=0.729 (IF=0.688, MQ=0.771) | lr=0.000003
+2026-01-25 11:49:22 | INFO |
+============================================================
+Validation Results (took 8.80s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7254
+  Quality Acc: 0.7370
+  Average Acc: 0.7312
+  Total Loss: 0.5172
+  Instruction Loss: 0.5459
+  Quality Loss: 0.4884
+============================================================
+2026-01-25 11:49:22 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1399.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:49:23 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1399.pt (422.0MB)
+2026-01-25 11:49:23 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_899.pt
+2026-01-25 11:49:23 | INFO | Best 3 checkpoints:
+2026-01-25 11:49:23 | INFO |   1. Step 1299: acc=0.7327 (reward_model.best_1299.pt)
+2026-01-25 11:49:23 | INFO |   2. Step 1199: acc=0.7312 (reward_model.best_1199.pt)
+2026-01-25 11:49:23 | INFO |   3. Step 1399: acc=0.7312 (reward_model.best_1399.pt)
+2026-01-25 11:49:24 | INFO | Step 1400: loss=0.4927 | IF_loss=0.5769, MQ_loss=0.4085 | acc=0.708 (IF=0.667, MQ=0.750) | lr=0.000002
+2026-01-25 11:51:38 | INFO |
+============================================================
+Validation Results (took 9.00s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7254
+  Quality Acc: 0.7370
+  Average Acc: 0.7312
+  Total Loss: 0.5166
+  Instruction Loss: 0.5454
+  Quality Loss: 0.4878
+============================================================
+2026-01-25 11:51:38 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1499.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:51:38 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1499.pt (422.0MB)
+2026-01-25 11:51:38 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1499.pt
+2026-01-25 11:51:38 | INFO | Best 3 checkpoints:
+2026-01-25 11:51:38 | INFO |   1. Step 1299: acc=0.7327 (reward_model.best_1299.pt)
+2026-01-25 11:51:38 | INFO |   2. Step 1199: acc=0.7312 (reward_model.best_1199.pt)
+2026-01-25 11:51:38 | INFO |   3. Step 1399: acc=0.7312 (reward_model.best_1399.pt)
+2026-01-25 11:51:39 | INFO | Step 1500: loss=0.4455 | IF_loss=0.4833, MQ_loss=0.4076 | acc=0.750 (IF=0.708, MQ=0.792) | lr=0.000001
+2026-01-25 11:53:52 | INFO |
+============================================================
+Validation Results (took 9.35s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7254
+  Quality Acc: 0.7370
+  Average Acc: 0.7312
+  Total Loss: 0.5173
+  Instruction Loss: 0.5462
+  Quality Loss: 0.4884
+============================================================
+2026-01-25 11:53:52 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1599.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:53:53 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1599.pt (422.0MB)
+2026-01-25 11:53:53 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1599.pt
+2026-01-25 11:53:53 | INFO | Best 3 checkpoints:
+2026-01-25 11:53:53 | INFO |   1. Step 1299: acc=0.7327 (reward_model.best_1299.pt)
+2026-01-25 11:53:53 | INFO |   2. Step 1199: acc=0.7312 (reward_model.best_1199.pt)
+2026-01-25 11:53:53 | INFO |   3. Step 1399: acc=0.7312 (reward_model.best_1399.pt)
+2026-01-25 11:53:57 | INFO | Step 1600: loss=0.4107 | IF_loss=0.4762, MQ_loss=0.3453 | acc=0.823 (IF=0.833, MQ=0.812) | lr=0.000001
+2026-01-25 11:56:08 | INFO |
+============================================================
+Validation Results (took 9.61s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7254
+  Quality Acc: 0.7341
+  Average Acc: 0.7298
+  Total Loss: 0.5172
+  Instruction Loss: 0.5463
+  Quality Loss: 0.4881
+============================================================
+2026-01-25 11:56:08 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1699.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:56:09 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1699.pt (422.0MB)
+2026-01-25 11:56:09 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1699.pt
+2026-01-25 11:56:09 | INFO | Best 3 checkpoints:
+2026-01-25 11:56:09 | INFO |   1. Step 1299: acc=0.7327 (reward_model.best_1299.pt)
+2026-01-25 11:56:09 | INFO |   2. Step 1199: acc=0.7312 (reward_model.best_1199.pt)
+2026-01-25 11:56:09 | INFO |   3. Step 1399: acc=0.7312 (reward_model.best_1399.pt)
+2026-01-25 11:56:10 | INFO | Step 1700: loss=0.4612 | IF_loss=0.4737, MQ_loss=0.4487 | acc=0.802 (IF=0.750, MQ=0.854) | lr=0.000001
+2026-01-25 11:58:26 | INFO |
+============================================================
+Validation Results (took 9.02s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7254
+  Quality Acc: 0.7341
+  Average Acc: 0.7298
+  Total Loss: 0.5173
+  Instruction Loss: 0.5463
+  Quality Loss: 0.4883
+============================================================
+2026-01-25 11:58:26 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1799.pt (filtered to 71.624M trainable parameters)
+2026-01-25 11:58:26 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1799.pt (422.0MB)
+2026-01-25 11:58:26 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1799.pt
+2026-01-25 11:58:26 | INFO | Best 3 checkpoints:
+2026-01-25 11:58:26 | INFO |   1. Step 1299: acc=0.7327 (reward_model.best_1299.pt)
+2026-01-25 11:58:26 | INFO |   2. Step 1199: acc=0.7312 (reward_model.best_1199.pt)
+2026-01-25 11:58:26 | INFO |   3. Step 1399: acc=0.7312 (reward_model.best_1399.pt)
+2026-01-25 11:58:27 | INFO | Step 1800: loss=0.4209 | IF_loss=0.4485, MQ_loss=0.3933 | acc=0.833 (IF=0.833, MQ=0.833) | lr=0.000000
+2026-01-25 12:00:38 | INFO |
+============================================================
+Validation Results (took 9.32s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7283
+  Quality Acc: 0.7341
+  Average Acc: 0.7312
+  Total Loss: 0.5172
+  Instruction Loss: 0.5464
+  Quality Loss: 0.4881
+============================================================
+2026-01-25 12:00:38 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1899.pt (filtered to 71.624M trainable parameters)
+2026-01-25 12:00:39 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1899.pt (422.0MB)
+2026-01-25 12:00:39 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1899.pt
+2026-01-25 12:00:39 | INFO | Best 3 checkpoints:
+2026-01-25 12:00:39 | INFO |   1. Step 1299: acc=0.7327 (reward_model.best_1299.pt)
+2026-01-25 12:00:39 | INFO |   2. Step 1199: acc=0.7312 (reward_model.best_1199.pt)
+2026-01-25 12:00:39 | INFO |   3. Step 1399: acc=0.7312 (reward_model.best_1399.pt)
+2026-01-25 12:00:40 | INFO | Step 1900: loss=0.5161 | IF_loss=0.5734, MQ_loss=0.4587 | acc=0.688 (IF=0.646, MQ=0.729) | lr=0.000000
+2026-01-25 12:02:54 | INFO |
+============================================================
+Validation Results (took 8.56s):
+  Samples: 346 instruction, 346 quality
+  Instruction Acc: 0.7283
+  Quality Acc: 0.7341
+  Average Acc: 0.7312
+  Total Loss: 0.5172
+  Instruction Loss: 0.5463
+  Quality Loss: 0.4881
+============================================================
+2026-01-25 12:02:54 | INFO | Saving checkpoint to /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1999.pt (filtered to 71.624M trainable parameters)
+2026-01-25 12:02:54 | INFO | Checkpoint saved: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1999.pt (422.0MB)
+2026-01-25 12:02:54 | INFO | Removed old checkpoint: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1117/ckpt/reward_model.best_1999.pt
+2026-01-25 12:02:54 | INFO | Best 3 checkpoints:
+2026-01-25 12:02:54 | INFO |   1. Step 1299: acc=0.7327 (reward_model.best_1299.pt)
+2026-01-25 12:02:54 | INFO |   2. Step 1199: acc=0.7312 (reward_model.best_1199.pt)
+2026-01-25 12:02:54 | INFO |   3. Step 1399: acc=0.7312 (reward_model.best_1399.pt)
+2026-01-25 12:02:54 | INFO | Training complete!
+2026-01-25 12:02:54 | INFO | Training complete!

20260125_1231/config.yaml ADDED Viewed

	@@ -0,0 +1,142 @@

+DEVICES: '5'
+accelerate:
+  mixed_precision: bf16
+basics:
+  random_seed: 42
+  save_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human
+dataset:
+  audio_dropout:
+    apply_to_eval: true
+    apply_to_ref: true
+    enabled: true
+    eval_only_on_training: true
+    max_duration: 1500
+    min_duration: 200
+    train_mode: start
+  cache_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/tmp
+  db_path: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/backend/database.db
+  duration: 600.0
+  embedding_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/supervised_embeddings
+  max_samples: null
+  max_val_samples: null
+  metadata_jsonl: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/all_comparisons.jsonl
+  mode: raw_text_frozen_audio
+  preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/human_annotations/train.json
+  sample_rate: 24000
+  val_preference_file: null
+loss:
+  IF_ratio: 0.5
+  filter_ties: true
+  label_smoothing: 0.0
+  reduction: mean
+model:
+  attention_mode: SA
+  attn_dropout: 0.0
+  category_embeddings: null
+  dim: 768
+  dim_head: 64
+  downsample:
+    configs:
+      conv2_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv*2
+        use_layernorm: true
+      conv_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv
+        stage: 1
+        use_layernorm: true
+      glu_4x:
+        factor: 4
+        kernel_size: 5
+        kind: gluconv*2+pw
+        use_layernorm: true
+      mean:
+        factor: 2
+        kind: mean
+      mean_4x:
+        dropout: 0.0
+        factor: 30
+        kind: mean+mlp
+        mlp_ratio: 2.0
+      none:
+        factor: 1
+        kind: none
+    eval: mean_4x
+    ref: null
+    text: none
+  ff_dropout: 0.0
+  ff_mult: 4
+  freeze_audio: true
+  freeze_text: true
+  gradient_checkpointing: false
+  heads: 8
+  joint_tf_depth: 1
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+  mlp_dim: 768
+  mode: concat_text_late
+  model_name: OpenMuQ/MuQ-MuLan-large
+  name: reward
+  no_condition: false
+  null_embedding:
+    audio:
+      dropout: 0.5
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    text:
+      dropout: 0
+      length: 10
+  output_dim: 2
+  prompt_tf_depth: 4
+  sr: 24000
+  text_encoder:
+    name: muq_mulan
+    tune: null
+  text_lora_config: null
+  train_muq_depth: 0
+  train_muqmulan: false
+  use_audio: true
+  use_layer_idx: -1
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: null
+train:
+  batch_size: 48
+  betas:
+  - 0.9
+  - 0.99
+  ema_decay: 0.9999
+  ema_update_every: 1
+  enable_gradient_checkpointing: true
+  force_clear_prev_results: false
+  grad_accum_every: 1
+  log_tensorboard: true
+  lr_schedule:
+    min_lr_ratio: 0.001
+    name: linear_cosine
+    total_steps: 10000
+    warmup_steps: 10
+  max_grad_norm: 1
+  mlp_lr: 1.0e-05
+  num_train_steps: 10000
+  num_valid_batches: null
+  num_workers: 8
+  other_lr: 1.0e-05
+  resume: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/contrastive/20260123_1403_tune_mulan_transformer/ckpt/reward_model.best_27252.pt
+  resume_optimizer: false
+  save_model_every: 2000
+  use_checkpoint_config: true
+  use_ema: false
+  use_lion: false
+  valid_batch_size: 20
+  valid_every: 500
+  valid_frac: 0.1
+  verify_weights_on_load: true
+validate_only: false

20260125_1231/eval_results_0125_1707.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

20260125_1231/reward_model/1769315504.5030606/events.out.tfevents.1769315504.MACLAB-S004.2360364.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4430ab0d26659fcc57b20fd55521428ea8d75daa98b78169e91d25ebffd673d8
+size 503

20260125_1231/reward_model/1769315504.5045948/hparams.yml ADDED Viewed

	@@ -0,0 +1,4 @@

+batch_size: 48
+grad_accum_every: 1
+learning_rate: 1.0e-05
+num_train_steps: 10000

20260125_1231/reward_model/events.out.tfevents.1769315504.MACLAB-S004.2360364.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76c1b87e41adf1f3ac89056217504376dbdc359f097f179ff31512b42ce3c00f
+size 5986202

20260125_1231/test_20260125_191012_reward_model.best_4499/test_results.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "metrics": {
+    "overall": {
+      "total_samples": 3463,
+      "mq": {
+        "num_non_tie": 3463,
+        "accuracy": 0.7678313600924054,
+        "avg_confidence": 0.7792870429358729,
+        "std_confidence": 0.14544243560525433
+      },
+      "if": {
+        "num_non_tie": 3463,
+        "accuracy": 0.6996823563384349,
+        "avg_confidence": 0.7319046033279007,
+        "std_confidence": 0.1337721067466566
+      },
+      "avg_accuracy": 0.7337568582154201
+    },
+    "by_modality": {
+      "has_audio": {
+        "count": 884,
+        "mq_acc": 0.8122171945701357,
+        "if_acc": 0.7726244343891403,
+        "mq_conf": 0.7979760396534501,
+        "if_conf": 0.7548858234785262
+      },
+      "no_audio": {
+        "count": 2579,
+        "mq_acc": 0.7526172935246219,
+        "if_acc": 0.6746801085692129,
+        "mq_conf": 0.7728810432854897,
+        "if_conf": 0.7240273646256312
+      },
+      "has_lyrics": {
+        "count": 943,
+        "mq_acc": 0.8038176033934252,
+        "if_acc": 0.7592788971367974,
+        "mq_conf": 0.7926488271573695,
+        "if_conf": 0.732424895558605
+      },
+      "no_lyrics": {
+        "count": 2520,
+        "mq_acc": 0.7543650793650793,
+        "if_acc": 0.6773809523809524,
+        "mq_conf": 0.7742869784434636,
+        "if_conf": 0.7317099066717284
+      }
+    },
+    "by_score_diff": {
+      "score_range": {
+        "min":

20260125_1231/test_20260125_194533_reward_model.best_4499/test_config.yaml ADDED Viewed

	@@ -0,0 +1,142 @@

+DEVICES: '7'
+accelerate:
+  mixed_precision: bf16
+basics:
+  random_seed: 42
+  save_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/reward_model
+dataset:
+  audio_dropout:
+    apply_to_eval: false
+    apply_to_ref: true
+    enabled: false
+    eval_only_on_training: true
+    max_duration: 1500
+    min_duration: 1500
+    train_mode: start
+  cache_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/tmp
+  db_path: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/backend/database.db
+  duration: 600.0
+  embedding_dir: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/supervised_embeddings
+  mode: raw_text_frozen_audio
+  max_samples: null
+  max_val_samples: null
+  metadata_jsonl: ${project_root}/CMI-Training/all_comparisons.jsonl
+  preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/unbiased_qwen/train.json
+  sample_rate: 24000
+  val_preference_file: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/CMI-Training/human_annotations/train.json
+loss:
+  IF_ratio: 0.5
+  filter_ties: true
+  label_smoothing: 0.0
+  reduction: mean
+model:
+  attention_mode: SA
+  attn_dropout: 0.0
+  category_embeddings: null
+  dim: 768
+  dim_head: 64
+  downsample:
+    configs:
+      conv2_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv*2
+        use_layernorm: true
+      conv_4x:
+        factor: 4
+        kernel_size: 5
+        kind: conv
+        stage: 1
+        use_layernorm: true
+      glu_4x:
+        factor: 4
+        kernel_size: 5
+        kind: gluconv*2+pw
+        use_layernorm: true
+      mean:
+        factor: 2
+        kind: mean
+      mean_4x:
+        dropout: 0.0
+        factor: 30
+        kind: mean+mlp
+        mlp_ratio: 2.0
+      none:
+        factor: 1
+        kind: none
+    eval: mean_4x
+    ref: null
+    text: none
+  ff_dropout: 0.0
+  ff_mult: 4
+  freeze_audio: true
+  freeze_text: true
+  gradient_checkpointing: false
+  heads: 8
+  joint_tf_depth: 1
+  load_config:
+    checkpoint_path: null
+    frozen_from_pretrained: true
+    pretrained_name: OpenMuQ/MuQ-MuLan-large
+    strict: false
+  mlp_dim: 768
+  mode: concat_text_late
+  model_name: OpenMuQ/MuQ-MuLan-large
+  name: reward
+  null_embedding:
+    audio:
+      dropout: 0.5
+      length: 10
+    lyrics:
+      dropout: 0.3
+      length: 10
+    text:
+      dropout: 0
+      length: 10
+  output_dim: 2
+  prompt_tf_depth: 4
+  sr: 24000
+  text_encoder:
+    name: muq_mulan
+    tune: null
+  text_lora_config: null
+  train_muq_depth: 0
+  train_muqmulan: false
+  use_layer_idx: -1
+  use_audio: true
+  no_condition: false
+project_root: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena
+run_name: null
+train:
+  batch_size: 48
+  betas:
+  - 0.9
+  - 0.99
+  ema_decay: 0.9999
+  ema_update_every: 1
+  enable_gradient_checkpointing: true
+  force_clear_prev_results: false
+  grad_accum_every: 1
+  log_tensorboard: true
+  lr_schedule:
+    min_lr_ratio: 0.001
+    name: linear_cosine
+    total_steps: 30000
+    warmup_steps: 300
+  max_grad_norm: 100
+  mlp_lr: 0.0001
+  num_train_steps: 30000
+  num_valid_batches: 10
+  num_workers: 8
+  other_lr: null
+  resume: /data/yrb/musicarena/Haiwen/offline_data/cmi-arena/experiments/finetune_human/20260125_1231/ckpt/reward_model.best_4499.pt
+  resume_optimizer: false
+  save_model_every: 2000
+  use_checkpoint_config: true
+  use_ema: true
+  use_lion: false
+  valid_batch_size: 20
+  valid_every: 2000
+  valid_frac: 0.1
+  verify_weights_on_load: true
+validate_only: true

20260125_1231/test_20260125_194533_reward_model.best_4499/test_results.json ADDED Viewed

	@@ -0,0 +1,239 @@

+{
+  "metrics": {
+    "overall": {
+      "total_samples": 3463,
+      "mq": {
+        "num_non_tie": 3463,
+        "accuracy": 0.7678313600924054,
+        "avg_confidence": 0.7792870429358729,
+        "std_confidence": 0.14544243560525433
+      },
+      "if": {
+        "num_non_tie": 3463,
+        "accuracy": 0.6996823563384349,
+        "avg_confidence": 0.7319046033279007,
+        "std_confidence": 0.1337721067466566
+      },
+      "avg_accuracy": 0.7337568582154201
+    },
+    "by_modality": {
+      "has_audio": {
+        "count": 884,
+        "mq_acc": 0.8122171945701357,
+        "if_acc": 0.7726244343891403,
+        "mq_conf": 0.7979760396534501,
+        "if_conf": 0.7548858234785262
+      },
+      "no_audio": {
+        "count": 2579,
+        "mq_acc": 0.7526172935246219,
+        "if_acc": 0.6746801085692129,
+        "mq_conf": 0.7728810432854897,
+        "if_conf": 0.7240273646256312
+      },
+      "has_lyrics": {
+        "count": 943,
+        "mq_acc": 0.8038176033934252,
+        "if_acc": 0.7592788971367974,
+        "mq_conf": 0.7926488271573695,
+        "if_conf": 0.732424895558605
+      },
+      "no_lyrics": {
+        "count": 2520,
+        "mq_acc": 0.7543650793650793,
+        "if_acc": 0.6773809523809524,
+        "mq_conf": 0.7742869784434636,
+        "if_conf": 0.7317099066717284
+      }
+    },
+    "by_score_diff": {
+      "score_range": {
+        "min": 0.0,
+        "max": 4.0
+      },
+      "0-1": {
+        "count": 59,
+        "mq_acc": 0.6610169491525424,
+        "if_acc": 0.6271186440677966,
+        "mq_conf": 0.6943881915787519,
+        "if_conf": 0.6363525047140607
+      },
+      "1-2": {
+        "count": 367,
+        "mq_acc": 0.6512261580381471,
+        "if_acc": 0.5858310626702997,
+        "mq_conf": 0.7223088202099709,
+        "if_conf": 0.674628816443503
+      },
+      "2-3": {
+        "count": 1192,
+        "mq_acc": 0.7374161073825504,
+        "if_acc": 0.6459731543624161,
+        "mq_conf": 0.7660567649958918,
+        "if_conf": 0.7183731070800916
+      },
+      "3+": {
+        "count": 1845,
+        "mq_acc": 0.8140921409214092,
+        "if_acc": 0.759349593495935,
+        "mq_conf": 0.8018835368518261,
+        "if_conf": 0.7550955687111955
+      }
+    },
+    "by_duration": {
+      "0-30s": {
+        "count": 1097,
+        "mq_acc": 0.7529626253418414,
+        "if_acc": 0.6435733819507748,
+        "mq_conf": 0.7710004717301757,
+        "if_conf": 0.7230207648403338
+      },
+      "30-60s": {
+        "count": 1007,
+        "mq_acc": 0.7864945382323734,
+        "if_acc": 0.7149950347567031,
+        "mq_conf": 0.8106962935453376,
+        "if_conf": 0.7519949673422517
+      },
+      "60-90s": {
+        "count": 741,
+        "mq_acc": 0.7840755735492577,
+        "if_acc": 0.7651821862348178,
+        "mq_conf": 0.7830080420542986,
+        "if_conf": 0.7454769649164558
+      },
+      "90-120s": {
+        "count": 12,
+        "mq_acc": 0.6666666666666666,
+        "if_acc": 0.5,
+        "mq_conf": 0.7591231515010198,
+        "if_conf": 0.7100299447774887
+      },
+      "120s+": {
+        "count": 606,
+        "mq_acc": 0.7458745874587459,
+        "if_acc": 0.6996699669966997,
+        "mq_conf": 0.7379437419447569,
+        "if_conf": 0.6984391746544601
+      }
+    },
+    "model_pairs": {
+      "total_pairs": 128,
+      "valid_pairs": 45,
+      "min_count_threshold": 10,
+      "top_5": [
+        {
+          "pair": "jamify vs suno-v4.5-plus",
+          "count": 13,
+          "mq_acc": 1.0,
+          "if_acc": 0.9230769230769231,
+          "avg_acc": 0.9615384615384616,
+          "mq_conf": 0.8753359088530908,
+          "if_conf": 0.8881901227510892
+        },
+        {
+          "pair": "jamify vs suno-v4",
+          "count": 11,
+          "mq_acc": 1.0,
+          "if_acc": 0.9090909090909091,
+          "avg_acc": 0.9545454545454546,
+          "mq_conf": 0.8784825205802917,
+          "if_conf": 0.8930827325040643
+        },
+        {
+          "pair": "audioldm2-music vs magenta-rt-large",
+          "count": 116,
+          "mq_acc": 0.9224137931034483,
+          "if_acc": 0.9137931034482759,
+          "avg_acc": 0.9181034482758621,
+          "mq_conf": 0.8762899652637285,
+          "if_conf": 0.8524722950211887
+        },
+        {
+          "pair": "jamify vs levo",
+          "count": 65,
+          "mq_acc": 0.9538461538461539,
+          "if_acc": 0.8769230769230769,
+          "avg_acc": 0.9153846153846155,
+          "mq_conf": 0.8298323347018315,
+          "if_conf": 0.7724327931037316
+        },
+        {
+          "pair": "jamify vs suno-v3.5",
+          "count": 27,
+          "mq_acc": 0.9629629629629629,
+          "if_acc": 0.8518518518518519,
+          "avg_acc": 0.9074074074074074,
+          "mq_conf": 0.8570071635422883,
+          "if_conf": 0.8533604873551263
+        }
+      ],
+      "bottom_5": [
+        {
+          "pair": "audioldm vs sao",
+          "count": 12,
+          "mq_acc": 0.5,
+          "if_acc": 0.5,
+          "avg_acc": 0.5,
+          "mq_conf": 0.6995708495378494,
+          "if_conf": 0.6728040178616842
+        },
+        {
+          "pair": "audioldm2-music vs sao-small",
+          "count": 20,
+          "mq_acc": 0.6,
+          "if_acc": 0.45,
+          "avg_acc": 0.525,
+          "mq_conf": 0.7222894936800003,
+          "if_conf": 0.6842079430818557
+        },
+        {
+          "pair": "sao vs sao-small",
+          "count": 18,
+          "mq_acc": 0.5555555555555556,
+          "if_acc": 0.5555555555555556,
+          "avg_acc": 0.5555555555555556,
+          "mq_conf": 0.7228857609960768,
+          "if_conf": 0.680361701382531
+        },
+        {
+          "pair": "suno-v3.5 vs suno-v5",
+          "count": 10,
+          "mq_acc": 0.7,
+          "if_acc": 0.5,
+          "avg_acc": 0.6,
+          "mq_conf": 0.6346197962760926,
+          "if_conf": 0.6014198660850525
+        },
+        {
+          "pair": "magenta-rt-large vs sao-small",
+          "count": 16,
+          "mq_acc": 0.6875,
+          "if_acc": 0.5625,
+          "avg_acc": 0.625,
+          "mq_conf": 0.8538035452365875,
+          "if_conf": 0.8277972266077995
+        }
+      ]
+    },
+    "alignment": {
+      "total_non_tie": 3463,
+      "agreement_rate": 0.9347386658966215,
+      "agree": {
+        "count": 3237,
+        "mq_acc": 0.788693234476367,
+        "if_acc": 0.7055915971578622,
+        "mq_conf": 0.7936204567454942,
+        "if_conf": 0.7445049513111816
+      },
+      "disagree": {
+        "count": 226,
+        "mq_acc": 0.4690265486725664,
+        "if_acc": 0.6150442477876106,
+        "mq_conf": 0.5739894300962971,
+        "if_conf": 0.5514297076558645
+      }
+    }
+  },
+  "summary": "======================================================================\nTEST METRICS SUMMARY\n======================================================================\n\n[Overall] Total: 3463 samples\n  MQ: Acc=0.7678, Conf=0.7793 ± 0.1454 (n=3463)\n  IF: Acc=0.6997, Conf=0.7319 ± 0.1338 (n=3463)\n  Avg Acc: 0.7338\n\n[By Prompt Modality]\n  has_audio   : n=  884, MQ_acc=0.8122, IF_acc=0.7726, MQ_conf=0.7980, IF_conf=0.7549\n  no_audio    : n= 2579, MQ_acc=0.7526, IF_acc=0.6747, MQ_conf=0.7729, IF_conf=0.7240\n  has_lyrics  : n=  943, MQ_acc=0.8038, IF_acc=0.7593, MQ_conf=0.7926, IF_conf=0.7324\n  no_lyrics   : n= 2520, MQ_acc=0.7544, IF_acc=0.6774, MQ_conf=0.7743, IF_conf=0.7317\n\n[By Score Difference (data confidence bins)]\n  Score range: [0.00, 4.00]\n  0-1         : n=   59, MQ_acc=0.6610, IF_acc=0.6271, MQ_conf=0.6944, IF_conf=0.6364\n  1-2         : n=  367, MQ_acc=0.6512, IF_acc=0.5858, MQ_conf=0.7223, IF_conf=0.6746\n  2-3         : n= 1192, MQ_acc=0.7374, IF_acc=0.6460, MQ_conf=0.7661, IF_conf=0.7184\n  3+          : n= 1845, MQ_acc=0.8141, IF_acc=0.7593, MQ_conf=0.8019, IF_conf=0.7551\n\n[By Duration (gen_a + gen_b)]\n  0-30s     : n= 1097, MQ_acc=0.7530, IF_acc=0.6436, MQ_conf=0.7710, IF_conf=0.7230\n  30-60s    : n= 1007, MQ_acc=0.7865, IF_acc=0.7150, MQ_conf=0.8107, IF_conf=0.7520\n  60-90s    : n=  741, MQ_acc=0.7841, IF_acc=0.7652, MQ_conf=0.7830, IF_conf=0.7455\n  90-120s   : n=   12, MQ_acc=0.6667, IF_acc=0.5000, MQ_conf=0.7591, IF_conf=0.7100\n  120s+     : n=  606, MQ_acc=0.7459, IF_acc=0.6997, MQ_conf=0.7379, IF_conf=0.6984\n\n[Model Pairs] Total: 128 unique pairs\n  Top 5 (by avg acc):\n    jamify vs suno-v4.5-plus                : n=  13, MQ=1.0000, IF=0.9231, Avg=0.9615, Conf(MQ/IF)=0.875/0.888\n    jamify vs suno-v4                       : n=  11, MQ=1.0000, IF=0.9091, Avg=0.9545, Conf(MQ/IF)=0.878/0.893\n    audioldm2-music vs magenta-rt-large     : n= 116, MQ=0.9224, IF=0.9138, Avg=0.9181, Conf(MQ/IF)=0.876/0.852\n    jamify vs levo                          : n=  65, MQ=0.9538, IF=0.8769, Avg=0.9154, Conf(MQ/IF)=0.830/0.772\n    jamify vs suno-v3.5                     : n=  27, MQ=0.9630, IF=0.8519, Avg=0.9074, Conf(MQ/IF)=0.857/0.853\n  Bottom 5:\n    audioldm vs sao                         : n=  12, MQ=0.5000, IF=0.5000, Avg=0.5000, Conf(MQ/IF)=0.700/0.673\n    audioldm2-music vs sao-small            : n=  20, MQ=0.6000, IF=0.4500, Avg=0.5250, Conf(MQ/IF)=0.722/0.684\n    sao vs sao-small                        : n=  18, MQ=0.5556, IF=0.5556, Avg=0.5556, Conf(MQ/IF)=0.723/0.680\n    suno-v3.5 vs suno-v5                    : n=  10, MQ=0.7000, IF=0.5000, Avg=0.6000, Conf(MQ/IF)=0.635/0.601\n    magenta-rt-large vs sao-small           : n=  16, MQ=0.6875, IF=0.5625, Avg=0.6250, Conf(MQ/IF)=0.854/0.828\n\n[MQ vs IF Alignment]\n  Agreement rate: 0.9347 (3463 non-tie samples)\n  When agree   (n= 3237): MQ_acc=0.7887, IF_acc=0.7056, MQ_conf=0.7936, IF_conf=0.7445\n  When disagree(n=  226): MQ_acc=0.4690, IF_acc=0.6150, MQ_conf=0.5740, IF_conf=0.5514\n======================================================================"
+}