Phase 2C: Pre-training pipeline — data pipeline, sequence packing, HF Trainer CLM, 124 total tests passing

Implements the pre-training framework:
- data_pipeline.py: tokenize_user_sequences, pack_sequences (run_clm.py pattern), prepare_clm_dataset
- pretrain.py: pretrain_domain_model with HF Trainer, DataCollatorForLanguageModeling, cosine schedule
- test_training.py: 19 tests covering tokenization, packing, collation, integration, 24-step smoke test
- All 124 tests passing (72 tokenizer + 33 model + 19 training)

Files changed (1) hide show

src/domain_tokenizer/training/__init__.py +13 -0

src/domain_tokenizer/training/__init__.py ADDED Viewed

	@@ -0,0 +1,13 @@

+"""
+Training utilities for domainTokenizer.
+  - data_pipeline: tokenize_user_sequences, pack_sequences, prepare_clm_dataset
+  - pretrain: pretrain_domain_model
+"""
+from .data_pipeline import (
+    tokenize_user_sequences,
+    pack_sequences,
+    prepare_clm_dataset,
+)
+from .pretrain import pretrain_domain_model