Add files using upload-large-folder tool

Browse files

Files changed (6) hide show

.gitattributes +1 -0
README.md +9 -8
config.json +29 -0
model.safetensors +3 -0
tokenizer.json +3 -0
tokenizer_config.json +8 -0

.gitattributes CHANGED Viewed

@@ -43,3 +43,4 @@ fsdp2_epoch_1/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
 fsdp2_epoch_1/__6_0.distcp filter=lfs diff=lfs merge=lfs -text
 fsdp2_epoch_1/__3_0.distcp filter=lfs diff=lfs merge=lfs -text
 fsdp2_epoch_1/.metadata filter=lfs diff=lfs merge=lfs -text

 fsdp2_epoch_1/__6_0.distcp filter=lfs diff=lfs merge=lfs -text
 fsdp2_epoch_1/__3_0.distcp filter=lfs diff=lfs merge=lfs -text
 fsdp2_epoch_1/.metadata filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ pipeline_tag: text-generation
 `KoHRM-Text-1.4B`는 `sapientinc/HRM-Text`의 PrefixLM 학습 구조를 기반으로, 한국어/영어/코딩/터미널/툴콜 사용성을 목표로 scratch pretraining하는 모델입니다.
-이 카드는 2026-05-23 기준 작업 중인 모델 카드 초안입니다. 현재 업로드되는 epoch artifact는 raw HRM-Text FSDP2 checkpoint이며, 바로 Transformers에서 로드하는 최종 배포 형식이 아닙니다.
 ## 모델 정보
@@ -51,7 +51,7 @@ Tokenizer repo: `LLM-OS-Models/HRM-Text-Ko-Terminal-Tokenizer-131K`
 ## 학습 데이터
-stage-0 입력은 전처리 완료된 711.3M token mix입니다.
 | 데이터 | token |
 |---|---:|
@@ -61,7 +61,7 @@ stage-0 입력은 전처리 완료된 711.3M token mix입니다.
 | ToolBench train tool-call task | 127.0M |
 | 합계 | 711.3M |
-이후 stage는 HRM cleaned 원본 retokenized dataset, local terminal dataset, 추가 한국어/코딩/툴콜 데이터를 순차적으로 포함합니다. 평가 데이터 성격의 `tb2_lite`, Terminal Bench 2, ToolBench eval, chi-bench는 train에서 제외합니다.
 ## 학습 방식
@@ -69,17 +69,18 @@ stage-0 입력은 전처리 완료된 711.3M token mix입니다.
 - Optimizer: HRM-Text upstream Adam-atan2
 - Context: 4096 tokens
 - Hardware: 8 x NVIDIA H200
-- Current stable global batch: 172,032 tokens
-- Checkpoint policy: epoch-level raw FSDP2 checkpoint upload
-논문 기본 global batch는 196,608 tokens였지만, 이 모델은 vocab이 131,072로 커서 final logits memory가 더 큽니다. 장기 run에서는 OOM 여유를 위해 172,032 tokens를 기본값으로 사용합니다.
 Staged pretraining에서는 checkpoint의 model/optimizer/EMA/carry를 이어받고, `resume_step_offset`과 `total_steps_override`로 LR schedule을 전체 pretraining 기준에 맞춥니다. 즉, 새 데이터가 준비될 때마다 학습을 재시작하되 optimizer와 schedule을 끊지 않는 방향으로 운용합니다.
 ## 현재 상태
-- stage-0 training: in progress
-- HF upload: epoch checkpoint watcher active
 - final Transformers conversion: not yet produced
 - public benchmark score: not yet evaluated for this model

 `KoHRM-Text-1.4B`는 `sapientinc/HRM-Text`의 PrefixLM 학습 구조를 기반으로, 한국어/영어/코딩/터미널/툴콜 사용성을 목표로 scratch pretraining하는 모델입니다.
+이 카드는 2026-05-23 기준 작업 중인 모델 카드 초안입니다. 현재 메인 artifact는 `model.safetensors` 안전 포맷 변환본입니다. raw HRM-Text FSDP2 checkpoint는 로컬 재개/복구용이며, Hugging Face 메인 repo에는 unsafe scan 경고를 피하기 위해 올리지 않습니다.
 ## 모델 정보
 ## 학습 데이터
+stage-0/stage0b 입력은 전처리 완료된 711.3M token mix입니다.
 | 데이터 | token |
 |---|---:|
 | ToolBench train tool-call task | 127.0M |
 | 합계 | 711.3M |
+현재 stage-1은 HRM cleaned fast-cap V1Dataset 14.55B tokens로 학습 중입니다. 이후 stage는 local terminal dataset, 추가 한국어/코딩/툴콜 데이터를 순차적으로 포함합니다. 평가 데이터 성격의 `tb2_lite`, Terminal Bench 2, ToolBench eval, chi-bench는 train에서 제외합니다.
 ## 학습 방식
 - Optimizer: HRM-Text upstream Adam-atan2
 - Context: 4096 tokens
 - Hardware: 8 x NVIDIA H200
+- Current stage-1 global batch: 262,144 tokens
+- Checkpoint policy: main repo에는 `model.safetensors` 변환본 업로드, raw FSDP2는 로컬 보관
+stage-1은 8 x H200에서 `global_batch_size=262144`로 실행 중이며, 관측 VRAM은 GPU0 약 118GB, 나머지 약 116GB입니다. 안정 속도는 약 `1.09-1.10 sec/step`, 약 238k-240k tokens/sec입니다. 문제가 생기면 `196608` batch로 되돌려 resume합니다.
 Staged pretraining에서는 checkpoint의 model/optimizer/EMA/carry를 이어받고, `resume_step_offset`과 `total_steps_override`로 LR schedule을 전체 pretraining 기준에 맞춥니다. 즉, 새 데이터가 준비될 때마다 학습을 재시작하되 optimizer와 schedule을 끊지 않는 방향으로 운용합니다.
 ## 현재 상태
+- stage-0/stage0b training: complete
+- stage0b safetensors HF upload: complete
+- stage-1 HRM fast-cap training: in progress
 - final Transformers conversion: not yet produced
 - public benchmark score: not yet evaluated for this model

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "model_type": "hrm_text",
+  "architectures": [
+    "HrmTextForCausalLM"
+  ],
+  "vocab_size": 131072,
+  "hidden_size": 1536,
+  "intermediate_size": 4096,
+  "num_hidden_layers": 32,
+  "num_attention_heads": 12,
+  "num_key_value_heads": 12,
+  "head_dim": 128,
+  "H_cycles": 2,
+  "L_cycles": 3,
+  "L_bp_steps": [
+    0,
+    3
+  ],
+  "max_position_embeddings": 4096,
+  "rms_norm_eps": 1e-06,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "initializer_range": 0.025515518153991442,
+  "embedding_scale": 39.191835884530846,
+  "prefix_lm": true,
+  "pad_token_id": 0,
+  "bos_token_id": 2,
+  "eos_token_id": 35
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dbbb870b21983eebac4215d1b613709e5cd6c45f7e2bf830ae2910037e5781c9
+size 2768259784

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8f544a7ef438e3589b0448ca9532824cbcb2fa43e6ad36642781803490f7ffb
+size 11458193

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "backend": "tokenizers",
+  "bos_token": "<|im_start|>",
+  "eos_token": "<|box_end|>",
+  "is_local": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "tokenizer_class": "TokenizersBackend"
+}