Bavantha11
/

m2h-mx

+dataset:
+  name: ScanNet
+  root: data/scannet
+  image_size: [480, 640]
+  num_classes: 20
+  ignore_index: 255
+  min_depth: 0.1
+  max_depth: 10.0
+  visual_min_depth: 0.1
+  visual_max_depth: 10.0
+  augment:
+    random_scale: [0.95, 1.1]
+    random_crop: true
+    horizontal_flip: true
+    color_jitter: {brightness: 0.1, contrast: 0.1, saturation: 0.1, hue: 0.05}
+    erase_prob: 0.0
+training:
+  epochs: 80
+  batch_size: 10
+  eval_batch_size: 16
+  num_workers: 10
+  device: cuda
+  mixed_precision: true
+  log_interval: 200
+  ckpt_interval: 1
+  grad_clip: 1.0
+  output_dir: outputs/scannet_m2h_mx_l
+  ema_decay: 0.999
+  eval_use_ema: true
+  finetune: true
+optimization:
+  lr: 3.0e-5
+  weight_decay: 0.02
+  betas: [0.9, 0.999]
+  warmup_epochs: 3
+  scheduler:
+    type: cosine
+    min_lr: 5.0e-6
+tasks:
+  include_semseg: true
+  include_depth: true
+  include_edge: false
+  include_normals: false
+  include_plane: false
+  include_confidence: false
+loss:
+  weights:
+    semseg: 3.0
+    depth_si: 1.5
+  focal_for_edges: false
+  depth_scale_weight: 0.0
+  depth_coarse_weight: 0.1
+  depth_offset_weight: 0.05
+  depth_bin_weight: 0.1
+  use_uncertainty_balancer: false
+model:
+  arch: m2h_mx_l
+  num_classes: 20
+  min_depth: 0.1
+  max_depth: 10.0
+m2h_mx:
+  decoder_dim: 256
+  num_seg_classes: 20
+  backbone_lr_scale: 0.03
+  ltc_window_size: 4
+  hm_d_state: 32
+  hm_drop_path: 0.1
+  gtf_extra_levels: 2
+  train_last_n_blocks: 24
+  intermediate_layer_indices: [5, 11, 17, 23]
+  num_register_tokens: 4
+  use_lora: true
+  lora_rank: 16
+  lora_alpha: 32.0
+  lora_dropout: 0.05
+  backbone_name: facebook/dinov3-vitl16-pretrain-lvd1689m
+  depth_bins: 64
+  depth_aux_weight: 0.2
+  aux_weights:
+    semseg: 0.5
+    depth: 0.2
+validation:
+  interval_steps: 1948
+  save_best_on: ["sem_mIoU", "dep_AbsRel"]