Phase 2A: Core tokenizer library — schema, field tokenizers, composite builder, predefined schemas, 72 passing tests

Implements the domain tokenizer library following Nubank nuFormer patterns:
- schema.py: DomainSchema, FieldSpec, FieldType (declarative event schema)
- field_tokenizers.py: Sign, MagnitudeBucket, Calendar, Categorical, DiscreteNumerical
- domain_tokenizer.py: DomainTokenizerBuilder (assembles into HF PreTrainedTokenizerFast)
- predefined.py: FINANCE_SCHEMA (97 domain tokens, Nubank-compatible), ECOMMERCE_SCHEMA, HEALTHCARE_SCHEMA
- test_tokenizer.py: 72 tests covering schemas, individual tokenizers, full pipeline, end-to-end encoding

Files changed (1) hide show

src/domain_tokenizer/__init__.py +34 -0

src/domain_tokenizer/__init__.py ADDED Viewed

	@@ -0,0 +1,34 @@

+"""
+domainTokenizer — Building small models that understand domain tokens, not just words.
+Core components:
+  - schema: DomainSchema, FieldSpec, FieldType
+  - tokenizers: DomainTokenizerBuilder, per-field tokenizers
+  - schemas: Predefined schemas (FINANCE, ECOMMERCE, HEALTHCARE)
+"""
+from .schema import DomainSchema, FieldSpec, FieldType
+from .tokenizers.domain_tokenizer import DomainTokenizerBuilder
+from .tokenizers.field_tokenizers import (
+    BaseFieldTokenizer,
+    CalendarTokenizer,
+    CategoricalTokenizer,
+    DiscreteNumericalTokenizer,
+    MagnitudeBucketTokenizer,
+    SignTokenizer,
+)
+__version__ = "0.1.0"
+__all__ = [
+    "DomainSchema",
+    "FieldSpec",
+    "FieldType",
+    "DomainTokenizerBuilder",
+    "BaseFieldTokenizer",
+    "SignTokenizer",
+    "MagnitudeBucketTokenizer",
+    "DiscreteNumericalTokenizer",
+    "CalendarTokenizer",
+    "CategoricalTokenizer",
+]