KoHRM-Text-1.4B / METHODOLOGY_ARCHITECTURE_NOTES_2026-05-24.md

Add methodology and VRAM notes

77ff990 verified about 18 hours ago

11.8 kB

	# KoHRM-Text Methodology and Architecture Notes

	작성일: 2026-05-24

	이 문서는 `KoHRM-Text-1.4B`가 HRM-Text 논문 방식과 어떤 점에서 같고, 어떤 점에서 운영상 다른지 정리합니다.

	참고 문서:

	- HRM-Text paper: https://arxiv.org/html/2605.20613
	- Upstream code: https://github.com/sapientinc/HRM-Text
	- KoHRM-Text code: https://github.com/LLM-OS-Models/KoHRM-text

	## 결론

	우리의 현재 학습은 방법론 관점에서는 HRM-Text 논문식 single-stage instruction pretraining에 맞춰져 있습니다.

	다만 실행 운영 관점에서는 논문과 완전히 같지 않습니다. 논문은 40B unique tokens를 단일 연속 run으로 학습했고, 중간 checkpointing/crash recovery를 쓰지 않았다고 설명합니다. 우리는 데이터 준비와 HF 업로드, OOM 회피, 체크포인트 보존 때문에 stage-0, stage0b, stage-1처럼 나누어 실행하고 있습니다.

	핵심 차이는 다음입니다.

	\| 항목 \| HRM-Text 논문 \| KoHRM-Text 현재 방식 \|
	\|---\|---\|---\|
	\| 학습 목적 \| instruction-response task-completion objective \| 동일 \|
	\| loss \| response-only NLL \| 동일 \|
	\| attention \| PrefixLM, instruction bidirectional + response causal \| 동일 코드 경로 사용 \|
	\| raw LM pretraining 후 SFT \| 하지 않음 \| 하지 않음 \|
	\| SFT 후보 데이터 \| instruction pretraining에 포함 \| 포함 \|
	\| 실행 형태 \| 단일 연속 run \| staged resume run \|
	\| checkpoint \| 논문은 중간 checkpointing 없음 \| 운영상 5,000 step마다 저장 \|
	\| tokenizer \| 65,536 BPE \| 131,072 Korean/terminal BPE \|
	\| hardware \| 16 x H100 \| 8 x H200 \|

	따라서 “논문처럼 single-stage 지시문 사전학습인가?”에 대한 답은 다음처럼 정리하는 것이 정확합니다.

	> 학습 objective와 데이터 포맷은 single-stage instruction pretraining입니다.
	> 그러나 실행은 한 프로세스의 단일 연속 run이 아니라, 같은 objective를 유지하면서 checkpoint resume으로 이어가는 staged pretraining입니다.

	## 논문 방법론 요약

	HRM-Text 논문은 기존 LLM의 대규모 raw-text causal LM 사전학습 후 mid-training/SFT로 가는 다단계 recipe를 비효율적이라고 보고, 처음부터 instruction-response pair만으로 학습합니다.

	논문 핵심:

	1. raw text 전체 토큰을 예측하지 않습니다.
	2. instruction tokens에는 loss를 주지 않습니다.
	3. response tokens에만 negative log-likelihood loss를 줍니다.
	4. instruction segment는 PrefixLM mask로 bidirectional attention을 허용합니다.
	5. response segment는 autoregressive causal attention을 유지합니다.
	6. 데이터는 direct, cot, synth, noisy 같은 condition tag를 instruction 앞에 붙여 응답 스타일을 제어합니다.
	7. `<think>...</think>` 같은 explicit long-CoT trace는 제거해 내부 recurrent computation이 문제 해결을 맡게 합니다.

	논문은 1B HRM-Text를 scratch로 학습했고, 약 40B unique tokens 및 16 x H100에서 약 46시간을 사용했다고 설명합니다. 공개 평가에는 EMA checkpoint를 사용합니다.

	## 현재 KoHRM-Text 학습 방식

	현재 `KoHRM-Text-1.4B`도 raw causal LM이 아니라 HRM-Text V1Dataset 포맷으로 학습합니다.

	각 샘플은 기본적으로 다음 구조를 갖습니다.

	```text
	instruction span -> response span
	```

	토큰 레벨에서는 다음처럼 구성됩니다.

	```text
	<\|im_start\|> condition_tokens instruction <\|im_end\|> response <\|box_end\|>
	```

	condition token은 다음 mapping을 사용합니다.

	\| condition \| token \|
	\|---\|---\|
	\| direct \| `<\|object_ref_start\|>` \|
	\| cot \| `<\|object_ref_end\|>` \|
	\| noisy \| `<\|quad_start\|>` \|
	\| synth \| `<\|quad_end\|>` \|

	`dataset_new.py` 기준으로 instruction span은 `inputs`에는 들어가지만 `target_only=True`일 때 label은 `IGNORE_LABEL_ID`가 됩니다. response span만 실제 cross entropy loss를 받습니다.

	즉 현재 학습은 “문서를 처음부터 끝까지 다 맞히는 raw LM”이 아니라 “주어진 지시/문맥을 보고 응답을 완성하는 task-completion pretraining”입니다.

	## PrefixLM 구현 확인

	현재 코드에서 PrefixLM 경로는 다음 파일들로 확인됩니다.

	\| 파일 \| 역할 \|
	\|---\|---\|
	\| `dataset_new.py` \| instruction/response span 분리, response-only label 구성 \|
	\| `models/flash_attention_prefixlm_v2.py` \| prefix bidirectional attention + response causal attention 구현 \|
	\| `models/layers.py` \| attention type `prefixlm` 사용 \|
	\| `models/lm_head.py` \| `IGNORE_LABEL_ID`를 제외하고 response label에만 CE loss 계산 \|

	`dataset_new.py`에서는 각 샘플에 대해 instruction 길이를 `prefix_lens`, response 길이를 `causal_lens`로 넘깁니다.

	`flash_attention_prefixlm_v2.py`는 attention을 두 부분으로 처리합니다.

	1. prefix 구간: instruction tokens끼리 bidirectional attention
	2. causal 구간: response tokens가 prefix 전체와 이전 response tokens를 보는 causal attention

	이 구조가 논문의 PrefixLM과 맞는 핵심입니다.

	## 모델 아키텍처

	현재 표준 모델명은 `KoHRM-Text-1.4B`이고, `arch/size@arch=XL`에 해당하는 설정을 사용합니다.

	\| 항목 \| 값 \|
	\|---\|---:\|
	\| params \| 1,384,120,320 \|
	\| hidden size \| 1,536 \|
	\| total configured layers \| 32 \|
	\| half layers \| true \|
	\| H module layers \| 16 \|
	\| L module layers \| 16 \|
	\| heads \| 12 \|
	\| head dim \| 128 \|
	\| expansion \| 4 \|
	\| intermediate size \| 4,096 \|
	\| context \| 4,096 \|
	\| RoPE theta \| 10,000 \|
	\| norm \| RMSNorm-style parameterless norm \|
	\| init \| LeCun normal \|
	\| dtype \| bfloat16 \|
	\| tokenizer vocab \| 131,072 \|

	HRM recurrent schedule:

	\| 항목 \| 값 \|
	\|---\|---:\|
	\| H cycles \| 2 \|
	\| L cycles per H cycle \| 3 \|
	\| effective H/L recurrence \| H2L3 \|
	\| bp min steps \| 2 \|
	\| bp max steps \| 5 \|
	\| bp warmup ratio \| 0.2 \|

	코드상 흐름은 다음과 같습니다.

	1. token embedding에서 시작한 hidden state를 `z_H`로 둡니다.
	2. learned/fixed low-level initial state `z_L_init`에서 `z_L`을 시작합니다.
	3. 각 H cycle마다 L module을 3번 반복 업데이트합니다.
	4. 그 뒤 H module을 1번 업데이트합니다.
	5. 총 2번의 H cycle을 수행합니다.
	6. 최종 `z_H`에 LM head를 붙여 vocabulary logits를 냅니다.

	논문 표현으로는 slow-evolving strategic layer인 H module과 fast-evolving execution layer인 L module의 dual-timescale recurrent design입니다.

	## MagicNorm / 안정화

	논문은 recurrent depth가 깊어지면 activation variance와 gradient instability가 커지므로 MagicNorm과 warmup deep credit assignment를 사용합니다.

	현재 코드에서는 `norm_type: pre`를 쓰되, Transformer module 끝에 final RMSNorm을 적용합니다. 즉 내부 block은 PreNorm 스타일이고 module output은 norm으로 capped됩니다. 이것이 논문에서 말하는 MagicNorm 계열 안정화와 대응됩니다.

	Backward는 처음부터 모든 recurrent step을 다 통과하지 않고, `bp_steps`를 warmup합니다.

	현재 설정:

	```yaml
	bp_warmup_ratio: 0.2
	bp_min_steps: 2
	bp_max_steps: 5
	```

	초기에는 마지막 2 recurrent steps 위주로 gradient를 흘리고, 학습이 진행되며 최대 5 steps까지 늘립니다. 이 점도 논문 방식과 맞습니다.

	## Optimizer / 스케줄

	현재 pretraining config:

	\| 항목 \| 값 \|
	\|---\|---:\|
	\| optimizer \| Adam-atan2 \|
	\| beta1 \| 0.9 \|
	\| beta2 \| 0.95 \|
	\| weight decay \| 0.1 \|
	\| lr \| 2.2e-4 \|
	\| lr warmup \| 2,000 steps \|
	\| lr min ratio \| 1.0 \|
	\| EMA \| 0.9999 \|
	\| gradient clipping \| 없음 \|

	논문도 Adam-atan2, warmup 2,000 steps, weight decay 0.1, EMA 0.9999, bf16을 사용합니다. 공개/평가는 EMA checkpoint를 기준으로 합니다.

	## 현재 staged run이 논문과 다른 이유

	논문은 “single continuous run”이라고 설명합니다. 우리는 다음 현실적 이유 때문에 staged run으로 운영합니다.

	1. 한국어/터미널/tokenizer 전처리가 순차적으로 끝나고 있습니다.
	2. GPU를 놀리지 않기 위해 준비된 데이터부터 학습을 시작했습니다.
	3. H200 8장 환경에서 131K vocab 때문에 batch OOM 안정 마진을 실측해야 했습니다.
	4. HF 업로드와 raw checkpoint 보존이 필요합니다.
	5. full HRM 328G no-cap retokenization이 아직 진행 중입니다.

	하지만 각 stage가 다른 목적함수로 바뀌는 것은 아닙니다.

	\| Stage \| Objective \| 성격 \|
	\|---\|---\|---\|
	\| stage-0 \| PrefixLM response-only \| 준비 완료된 711.3M mix \|
	\| stage0b \| PrefixLM response-only \| 같은 mix 추가 pass \|
	\| stage-1 \| PrefixLM response-only \| HRM fast-cap 14.55B \|
	\| later stage \| PrefixLM response-only \| full HRM 328G retokenized + 한국어/터미널/툴콜 mix \|
	\| final SFT \| PrefixLM response-only 또는 SFT용 response-only \| 품질 높은 subset으로 후처리 \|

	중요한 점은 stage-0에서 stage-1로 넘어갈 때 model/optimizer/EMA/carry를 이어받고, `resume_step_offset`과 `total_steps_override`로 global step/LR schedule을 이어가도록 수정했다는 것입니다.

	즉 “학습 방법론”은 single-stage instruction pretraining이고, “운영 방식”은 staged continuation입니다.

	## 현재 데이터가 single-stage 원칙에 맞는지

	현재 prepared dataset들은 전부 가능한 한 instruction-response 형태로 변환했습니다.

	\| 데이터 \| single-stage 원칙 적합성 \|
	\|---\|---\|
	\| HRM cleaned data \| 원래 HRM instruction/response/condition 구조라 적합 \|
	\| ToolBench \| tool instruction -> tool-call/answer response 구조라 적합 \|
	\| SWE-ZERO/local terminal \| terminal context -> next action/answer 구조라 적합 \|
	\| GLM/Claude reasoning \| final answer 중심으로 정리하면 적합 \|
	\| 한국어 법률/위키 원문 \| chunked instruction/response task로 바꿔 투입하므로 적합 \|

	주의할 점:

	- 한국어 위키/법률 raw chunk는 “그냥 다음 텍스트 예측”처럼 넣으면 논문식 task-completion에서 멀어집니다.
	- 따라서 title/context를 instruction으로 두고 chunk/summary/extraction을 response로 두는 식이 더 맞습니다.
	- local terminal dataset은 objective에 잘 맞지만 전체 비중이 너무 커지면 일반 지식/한국어 균형이 무너질 수 있습니다.

	## 현재 방식 평가

	현재 방식은 논문 핵심과 잘 맞습니다.

	맞는 부분:

	- scratch training
	- HRM H2L3 recurrent architecture
	- PrefixLM attention
	- response-only loss
	- condition token 사용
	- Adam-atan2
	- bf16
	- EMA 0.9999
	- 4,096 context
	- LeCun normal init

	다른 부분:

	- vocab 65,536이 아니라 131,072입니다.
	- 16 x H100이 아니라 8 x H200입니다.
	- 논문은 단일 연속 run, 우리는 staged resume run입니다.
	- 논문은 40B unique tokens를 보고했고, 현재 public checkpoint는 stage-1 fast-cap 중간 산출물입니다.
	- 한국어/터미널/툴콜 비중이 논문보다 훨씬 큽니다.

	위 차이는 의도된 변경입니다. 특히 한국어/터미널/툴콜을 목표로 하므로 tokenizer와 데이터 분포를 바꾼 것은 맞습니다. 다만 논문의 효율성을 재현하려면 최종적으로 full HRM cleaned data와 balanced Korean/terminal/tool mix를 합쳐 40B+ token 수준으로 이어 학습해야 합니다.

	## 운영 결론

	현재는 다음 기준으로 계속 가는 것이 맞습니다.

	1. 현재 stage-1은 계속 유지합니다.
	2. 전처리 완료 데이터는 HF dataset repo에 올려 다른 머신에서도 재현 가능하게 둡니다.
	3. full HRM 328G no-cap retokenization이 끝나면 next stage로 이어 학습합니다.
	4. SFT 후보 데이터도 pretraining에 먼저 포함합니다.
	5. 별도 final SFT는 마지막에 품질 높은 subset으로 다시 수행합니다.
	6. model repo는 최신 safetensors 중심, raw checkpoint repo는 resume용으로 분리합니다.