Spaces:

mekosotto
/

hackathon

Running

mekosotto commited on 7 days ago

Commit

cb5d63e

1 Parent(s): 8f586ea

feat(bbb): log run params, metrics, and parquet artifact to MLflow

Files changed (2) hide show

src/pipelines/bbb_pipeline.py CHANGED Viewed

@@ -11,6 +11,7 @@ traceability (row count in / out / dropped), and idempotent output.
 from __future__ import annotations
 import math
 from pathlib import Path
 import numpy as np
@@ -22,6 +23,7 @@ from rdkit.DataStructs import ConvertToNumpyArray
 from src.core.determinism import pin_threads
 from src.core.logger import get_logger
 from src.core.storage import write_parquet
 logger = get_logger(__name__)
@@ -224,6 +226,7 @@ def run_pipeline(
     if not input_path.exists():
         raise FileNotFoundError(f"Raw BBBP file not found: {input_path}")
     logger.info("Reading raw BBBP from %s", input_path)
     df = pd.read_csv(input_path)
     logger.info("Loaded %d rows, %d columns", len(df), len(df.columns))
@@ -240,6 +243,26 @@ def run_pipeline(
         output_path, len(features), features.shape[1],
     )
 if __name__ == "__main__":
     # Day-1 CLI entrypoint — runs with default paths against `data/raw/bbbp.csv`.

 from __future__ import annotations
 import math
+import time
 from pathlib import Path
 import numpy as np
 from src.core.determinism import pin_threads
 from src.core.logger import get_logger
 from src.core.storage import write_parquet
+from src.core.tracking import track_pipeline_run
 logger = get_logger(__name__)
     if not input_path.exists():
         raise FileNotFoundError(f"Raw BBBP file not found: {input_path}")
+    started = time.perf_counter()
     logger.info("Reading raw BBBP from %s", input_path)
     df = pd.read_csv(input_path)
     logger.info("Loaded %d rows, %d columns", len(df), len(df.columns))
         output_path, len(features), features.shape[1],
     )
+    duration_sec = time.perf_counter() - started
+    with track_pipeline_run(
+        experiment_name="bbb_pipeline",
+        params={
+            "input_path": str(input_path),
+            "output_path": str(output_path),
+            "n_bits": n_bits,
+            "radius": radius,
+        },
+        metrics={
+            "rows_in": float(len(df)),
+            "rows_out": float(len(features)),
+            "rows_dropped": float(len(df) - len(features)),
+            "duration_sec": duration_sec,
+        },
+        artifact_path=output_path,
+    ):
+        pass
 if __name__ == "__main__":
     # Day-1 CLI entrypoint — runs with default paths against `data/raw/bbbp.csv`.

tests/pipelines/test_bbb_pipeline.py CHANGED Viewed

@@ -215,3 +215,22 @@ class TestRunPipeline:
         with pytest.raises(IsADirectoryError, match="must be a file"):
             run_pipeline(input_path=input_path, output_path=bad_output, n_bits=32)

         with pytest.raises(IsADirectoryError, match="must be a file"):
             run_pipeline(input_path=input_path, output_path=bad_output, n_bits=32)
+import mlflow
+from src.pipelines import bbb_pipeline as _bbb_for_mlflow_test
+class TestBBBPipelineMLflow:
+    def test_run_pipeline_creates_mlflow_run(self, tmp_path):
+        from pathlib import Path
+        fixture = Path(__file__).resolve().parents[1] / "fixtures" / "bbbp_sample.csv"
+        out = tmp_path / "out.parquet"
+        _bbb_for_mlflow_test.run_pipeline(input_path=fixture, output_path=out)
+        runs = mlflow.search_runs(
+            experiment_names=["bbb_pipeline"],
+            order_by=["start_time DESC"],
+        )
+        assert len(runs) >= 1
+        assert "metrics.rows_out" in runs.columns
+        assert runs.iloc[0]["metrics.rows_out"] > 0