feat: config v2 — add dataset tier priorities, field selection strategy, and novel group preference

Browse files

Files changed (1) hide show

alpha_factory/config.py +38 -15

alpha_factory/config.py CHANGED Viewed

@@ -1,6 +1,6 @@
 """
-Configuration — all settings in one place.
-Environment variables override defaults.
 """
 from pydantic import BaseModel, Field
 from pathlib import Path
@@ -8,12 +8,11 @@ import os
 class LLMConfig(BaseModel):
-    """LLM serving configuration."""
     microfish_model: str = "Qwen/Qwen2.5-1.5B-Instruct"
     tinyfish_model: str = "Qwen/Qwen2.5-3B-Instruct"
     mediumfish_model: str = "Qwen/Qwen2.5-7B-Instruct"
     bigfish_model: str = "Qwen/Qwen2.5-72B-Instruct"
-    base_url: str = Field(default="http://localhost:8000/v1", description="vLLM / Ollama endpoint")
     api_key: str = "dummy"
     temperature_generation: float = 0.7
     temperature_compilation: float = 0.1
@@ -22,7 +21,6 @@ class LLMConfig(BaseModel):
 class BrainConfig(BaseModel):
-    """WorldQuant BRAIN API configuration."""
     api_url: str = "https://api.worldquantbrain.com"
     region: str = "USA"
     universe: str = "TOP3000"
@@ -34,8 +32,25 @@ class BrainConfig(BaseModel):
     submit_interval_sec: float = 15.0
 class KillSwitches(BaseModel):
-    """Hard circuit breakers — non-negotiable."""
     daily_brain_submissions_max: int = 200
     consecutive_lint_fail_max: int = 10
     consecutive_kill_verdict_max: int = 30
@@ -44,7 +59,6 @@ class KillSwitches(BaseModel):
 class FitnessWeights(BaseModel):
-    """Fitness function coefficients. Calibrate with hand-rankings after 20+ alphas."""
     sharpe_os: float = 1.0
     is_os_gap_penalty: float = 0.5
     worst_year_penalty: float = 1.0
@@ -54,10 +68,22 @@ class FitnessWeights(BaseModel):
     drawdown_penalty: float = 0.1
     drawdown_threshold: float = 0.05
     novelty_bonus: float = 0.4
 class Paths(BaseModel):
-    """All filesystem paths."""
     root: Path = Path(os.getenv("AF_ROOT", "."))
     data: Path = Field(default=None)
     factor_store: Path = Field(default=None)
@@ -73,22 +99,22 @@ class Paths(BaseModel):
             self.prompts = self.root / "prompts"
         if self.logs is None:
             self.logs = self.root / "logs"
-        # Ensure directories exist
         for p in [self.data, self.factor_store, self.factor_store / "alphas",
                   self.prompts, self.prompts / "templates", self.logs]:
             p.mkdir(parents=True, exist_ok=True)
 class Config(BaseModel):
-    """Master configuration."""
     llm: LLMConfig = LLMConfig()
     brain: BrainConfig = BrainConfig()
     kill: KillSwitches = KillSwitches()
     fitness: FitnessWeights = FitnessWeights()
     paths: Paths = Paths()
     # Pipeline settings
-    batch_size: int = 10  # alphas per batch
     max_iterations_per_family: int = 3
     correlation_threshold: float = 0.65
     min_sharpe_local_sim: float = 1.0
@@ -96,7 +122,4 @@ class Config(BaseModel):
 def load_config() -> Config:
-    """Load config with env var overrides."""
-    return Config(
-        paths=Paths(root=Path(os.getenv("AF_ROOT", ".")))
-    )

 """
+Configuration v2 — all settings in one place.
+Now includes dataset-tier priorities and field selection strategy.
 """
 from pydantic import BaseModel, Field
 from pathlib import Path
 class LLMConfig(BaseModel):
     microfish_model: str = "Qwen/Qwen2.5-1.5B-Instruct"
     tinyfish_model: str = "Qwen/Qwen2.5-3B-Instruct"
     mediumfish_model: str = "Qwen/Qwen2.5-7B-Instruct"
     bigfish_model: str = "Qwen/Qwen2.5-72B-Instruct"
+    base_url: str = Field(default="http://localhost:8000/v1")
     api_key: str = "dummy"
     temperature_generation: float = 0.7
     temperature_compilation: float = 0.1
 class BrainConfig(BaseModel):
     api_url: str = "https://api.worldquantbrain.com"
     region: str = "USA"
     universe: str = "TOP3000"
     submit_interval_sec: float = 15.0
+class FieldSelectionStrategy(BaseModel):
+    """Strategy for picking fields — key lever for alpha novelty."""
+    # Priority order for dataset tiers (lower index = try first)
+    tier_priority: list[str] = ["tier1", "tier2", "tier3"]
+    # Maximum alpha count for a field to be considered "novel"
+    max_alpha_count: int = 50
+    # Fields with AC=0 get this multiplier in selection weight
+    goldmine_weight_multiplier: float = 10.0
+    # Minimum coverage threshold
+    min_coverage: float = 0.55
+    # Prefer novel group keys for neutralization
+    prefer_novel_groups: bool = True
+    # Maximum group AC to qualify as "novel"
+    max_group_ac: int = 30
+    # How many fields to try per batch before giving up
+    fields_per_batch: int = 5
 class KillSwitches(BaseModel):
     daily_brain_submissions_max: int = 200
     consecutive_lint_fail_max: int = 10
     consecutive_kill_verdict_max: int = 30
 class FitnessWeights(BaseModel):
     sharpe_os: float = 1.0
     is_os_gap_penalty: float = 0.5
     worst_year_penalty: float = 1.0
     drawdown_penalty: float = 0.1
     drawdown_threshold: float = 0.05
     novelty_bonus: float = 0.4
+    # New: bonus for using AC=0 fields
+    goldmine_field_bonus: float = 0.3
+    # New: bonus for using novel group keys
+    novel_group_bonus: float = 0.2
+class SubmissionThresholds(BaseModel):
+    """BRAIN submission pass/fail cutoffs from IQC 2026."""
+    min_sharpe: float = 1.25
+    min_fitness: float = 1.0
+    max_turnover: float = 0.70
+    min_sub_universe_sharpe: float = 0.78
+    max_self_correlation: float = 0.65
 class Paths(BaseModel):
     root: Path = Path(os.getenv("AF_ROOT", "."))
     data: Path = Field(default=None)
     factor_store: Path = Field(default=None)
             self.prompts = self.root / "prompts"
         if self.logs is None:
             self.logs = self.root / "logs"
         for p in [self.data, self.factor_store, self.factor_store / "alphas",
                   self.prompts, self.prompts / "templates", self.logs]:
             p.mkdir(parents=True, exist_ok=True)
 class Config(BaseModel):
     llm: LLMConfig = LLMConfig()
     brain: BrainConfig = BrainConfig()
+    field_strategy: FieldSelectionStrategy = FieldSelectionStrategy()
     kill: KillSwitches = KillSwitches()
     fitness: FitnessWeights = FitnessWeights()
+    submission: SubmissionThresholds = SubmissionThresholds()
     paths: Paths = Paths()
     # Pipeline settings
+    batch_size: int = 10
     max_iterations_per_family: int = 3
     correlation_threshold: float = 0.65
     min_sharpe_local_sim: float = 1.0
 def load_config() -> Config:
+    return Config(paths=Paths(root=Path(os.getenv("AF_ROOT", "."))))