release: initial squashed history

Browse files

Files changed (4) hide show

.gitattributes +35 -0
checkpoints/checkpoint_71.pt +3 -0
config.yaml +168 -0
config_model.yaml +43 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

checkpoints/checkpoint_71.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22f2d0ee8a7f661c8cb83a48e376fff6cce44e3656d26997a7d2e5e49a0b581f
+size 6109656743

config.yaml ADDED Viewed

	@@ -0,0 +1,168 @@

+data:
+  allow_multiple_epochs: false
+  augmentation:
+    enabled: true
+    image:
+      color_jitter:
+        brightness: 0.2
+        contrast: 0.4
+        enabled: true
+        hue:
+        - -0.05
+        - 0.05
+        saturation: 0.2
+      crop:
+        enabled: true
+        mode: random
+        shape:
+        - 224
+        - 224
+    point_cloud:
+      color_jitter:
+        brightness: 0.2
+        contrast: 0.4
+        enabled: false
+        hue:
+        - -0.05
+        - 0.05
+        saturation: 0.2
+  dataloader_in_order: false
+  dataset_cache:
+    cache_dir: null
+    cache_size_gb: null
+    cache_verbose: null
+    enabled: false
+  dataset_manifest:
+  - null
+  dataset_modality:
+  - image_caption
+  dataset_weighting:
+  - 1.0
+  hf_fast_tokenizer_rayon_threads: null
+  hf_fast_tokenizers_parallelism: true
+  image_size: 342
+  img_num_tokens: 64
+  num_workers: 8
+  prefetch_factor: 4
+  processor: HuggingFaceTB/SmolVLM2-256M-Video-Instruct
+  processor_kwargs:
+    max_image_size:
+      longest_edge: 224
+    size:
+      longest_edge: 224
+  seed: 42
+  seq_len: 256
+  shuffle: true
+  shuffle_buffer_size: 2000
+  shuffle_initial: 500
+  tokenizer: HuggingFaceTB/SmolVLM2-256M-Video-Instruct
+  type: image_caption
+  use_hf_fast_tokenizer: true
+  val_dataset_manifest: []
+  val_dataset_weighting: []
+db_logging: true
+distributed:
+  ddp_static_graph: false
+  device: cuda:0
+  dist_backend: nccl
+  dist_url: env://
+  fsdp: true
+  fsdp_cpu_offload: false
+  fsdp_reshard_after_forward: false
+  local_rank: 0
+  rank: 0
+  use_distributed: true
+  world_size: 16
+ema:
+  alpha: 0.999
+  enabled: false
+  inv_gamma: 1.0
+  max_value: 0.9999
+  min_value: 0.0
+  power: 0.75
+  type: ema
+  update_after_step: 0
+hparams:
+  beta1: 0.9
+  beta2: 0.95
+  decay: '0.2'
+  eps: 1.0e-08
+  force_min_lr: 0.0
+  global_batch_size: 1024
+  grad_checkpointing: false
+  grad_clip_norm: 1.0
+  loss_function: cross_entropy
+  lr: 0.0001
+  lr_cooldown_end: 0.0
+  lr_scheduler: warmup_constant_decay
+  optimizer: adamw
+  per_gpu_batch_size: 64
+  precision: pure_bf16
+  seed: 42
+  torchcompile: true
+  warmup: '1000'
+  wd: 0.01
+  world_size: 16
+  z_loss_coefficient: 0.0001
+log_every_n_steps: 20
+log_level: INFO
+max_checkpoint_limit: null
+model:
+  freeze: false
+  image_token_id: 49190
+  processor: HuggingFaceTB/SmolVLM2-256M-Video-Instruct
+  resume_from_checkpoint: null
+  resume_weights_only: false
+  transformer:
+    attn_name: torch_attn
+    cast_output_to_float32: false
+    ffn_type: swiglu
+    freeze: false
+    hidden_dim: 2048
+    is_causal: true
+    max_seq_len: 2048
+    n_heads: 16
+    n_layers: 24
+    norm_eps: 1.0e-05
+    norm_type: lp_layer_norm
+    positional_embedding_type: rotary
+    post_embed_norm: false
+    qk_norm: true
+    resume_from_checkpoint: null
+    resume_weights_only: true
+    type: transformer
+    vocab_size: 49280
+    weight_tying: false
+  type: vlm
+  vit:
+    cls_flag: false
+    dropout: 0.0
+    freeze: false
+    hidden_dim: 768
+    img_size: 224
+    inter_dim: 3072
+    interpolation_mode: bicubic
+    ln_eps: 1.0e-06
+    n_heads: 12
+    n_layers: 12
+    patch_size: 14
+    pretrained: null
+    projector_pixel_shuffle_factor: 2
+    resume_from_checkpoint: null
+    resume_weights_only: false
+    type: vit
+name: 2026_04_11-08_24_20-model_vlm-lr_0.0001-bsz_1024
+num_checkpoints: 20
+num_epochs: null
+remote_sync: null
+remote_sync_fixed_path: null
+resolve_configs: false
+resolve_configs_path: null
+save_path: /tmp
+total_train_samples: 200000000
+total_val_samples: null
+val_every_n_checkpoints: 1
+wandb: true
+wandb_entity: tri
+wandb_project_name: vla_foundry
+wandb_tags: []

config_model.yaml ADDED Viewed

	@@ -0,0 +1,43 @@

+freeze: false
+image_token_id: 49190
+processor: HuggingFaceTB/SmolVLM2-256M-Video-Instruct
+resume_from_checkpoint: null
+resume_weights_only: false
+transformer:
+  attn_name: torch_attn
+  cast_output_to_float32: false
+  ffn_type: swiglu
+  freeze: false
+  hidden_dim: 2048
+  is_causal: true
+  max_seq_len: 2048
+  n_heads: 16
+  n_layers: 24
+  norm_eps: 1.0e-05
+  norm_type: lp_layer_norm
+  positional_embedding_type: rotary
+  post_embed_norm: false
+  qk_norm: true
+  resume_from_checkpoint: null
+  resume_weights_only: true
+  type: transformer
+  vocab_size: 49280
+  weight_tying: false
+type: vlm
+vit:
+  cls_flag: false
+  dropout: 0.0
+  freeze: false
+  hidden_dim: 768
+  img_size: 224
+  inter_dim: 3072
+  interpolation_mode: bicubic
+  ln_eps: 1.0e-06
+  n_heads: 12
+  n_layers: 12
+  patch_size: 14
+  pretrained: null
+  projector_pixel_shuffle_factor: 2
+  resume_from_checkpoint: null
+  resume_weights_only: false
+  type: vit