Spaces:

3DReflecNet
/

3DReflecNet_Explorer

Running

App Files Files Community

Asnly commited on 18 days ago

Commit

7eec965

verified ·

1 Parent(s): 7591256

Deploy Space app files

Browse files

Files changed (1) hide show

app.py +55 -63

app.py CHANGED Viewed

@@ -1,9 +1,8 @@
 #!/usr/bin/env python3
 """HF Space entry point for 3DReflecNet dataset preview.
-Loads the hybrid Hugging Face release using the `datasets` library:
-  1. data/metadata/train.parquet for filtering and GLB paths
-  2. data/preview/preview.parquet for the small image preview subset
 """
 from __future__ import annotations
@@ -50,54 +49,13 @@ atexit.register(shutil.rmtree, str(_GLB_CACHE_DIR), True)
 # Data loading
 # ---------------------------------------------------------------------------
-def load_metadata() -> pd.DataFrame:
-    """Load lightweight metadata columns (one row per instance)."""
-    METADATA_COLS = [
-        "instance_id", "ply_path", "glb_path",
-        "main_category", "sub_category", "model_name",
-        "material_name", "env_name",
-        "hasGlass", "isGenerated", "transparent", "near_light",
-    ]
-    ds = load_dataset(
-        DATASET_REPO,
-        data_files="data/metadata/train.parquet",
-        split="train",
-        streaming=True,
-        token=HF_TOKEN,
-    ).select_columns(METADATA_COLS)
-    rows: list[dict[str, Any]] = []
-    seen: dict[str, dict[str, Any]] = {}
-    for example in ds:
-        row = {col: example[col] for col in METADATA_COLS}
-        iid = row["instance_id"]
-        if not isinstance(iid, str) or not iid.strip():
-            raise ValueError(f"Invalid instance_id in metadata row: {iid!r}")
-        if iid in seen:
-            if seen[iid] != row:
-                raise ValueError(f"Inconsistent metadata rows for instance_id {iid!r}.")
-            continue
-        seen[iid] = row
-        rows.append(row)
-    df = pd.DataFrame(rows, columns=METADATA_COLS)
-    require_text_columns(
-        df,
-        [
-            "instance_id", "ply_path", "glb_path", "main_category", "sub_category",
-            "model_name", "material_name", "env_name",
-        ],
-        "metadata parquet",
-    )
-    require_bool_columns(df, BOOL_COLUMNS, "metadata parquet")
-    return df
 def load_preview_dataframe() -> pd.DataFrame:
     """Load the small preview Parquet into memory."""
     PREVIEW_COLS = [
         "instance_id", "split", "frame_id", "rgb", "mask",
         "depth_preview", "normal_preview",
         "main_category", "sub_category", "model_name",
-        "material_name", "env_name",
         "hasGlass", "isGenerated", "transparent", "near_light",
     ]
     ds = load_dataset(
@@ -113,7 +71,7 @@ def load_preview_dataframe() -> pd.DataFrame:
         df,
         [
             "instance_id", "split", "main_category", "sub_category",
-            "model_name", "material_name", "env_name",
         ],
         "preview parquet",
     )
@@ -127,6 +85,40 @@ def load_preview_dataframe() -> pd.DataFrame:
     return df
 def load_instance_frames(
     preview_df: pd.DataFrame, instance_id: str, split: str = "train", max_frames: int = 50,
 ) -> list[dict[str, Any]]:
@@ -202,16 +194,18 @@ def download_glb(glb_path: str) -> str:
     return str(local)
-def build_stats_markdown(df: pd.DataFrame) -> str:
-    """Generate dataset overview statistics."""
     total_instances = len(df)
     total_models = df["model_name"].nunique()
     main_cats = df["main_category"].dropna().astype(str)
     main_dist = main_cats.value_counts().head(10)
     dist_lines = " | ".join(f"**{cat}**: {cnt}" for cat, cnt in main_dist.items())
     return (
-        f"**Dataset Overview** — "
         f"**{total_instances}** instances, "
         f"**{total_models}** models, "
         f"**{main_cats.nunique()}** main categories\n\n"
         f"Distribution: {dist_lines}"
@@ -222,10 +216,10 @@ def build_stats_markdown(df: pd.DataFrame) -> str:
 # App builder
 # ---------------------------------------------------------------------------
-def build_app(df: pd.DataFrame, preview_df: pd.DataFrame) -> gr.Blocks:
-    model_name_choices = get_distinct_text_choices(df, "model_name")
-    material_name_choices = get_distinct_text_choices(df, "material_name")
-    env_name_choices = get_distinct_text_choices(df, "env_name")
     model_display_cols = [
         "model_name",
@@ -258,7 +252,7 @@ def build_app(df: pd.DataFrame, preview_df: pd.DataFrame) -> gr.Blocks:
         "glb_path",
     ]
-    stats_md = build_stats_markdown(df)
     # ---- 3D Viewer callbacks ----
@@ -272,7 +266,7 @@ def build_app(df: pd.DataFrame, preview_df: pd.DataFrame) -> gr.Blocks:
         near_light: str,
     ):
         filtered = filter_dataframe_advanced(
-            preview_df,
             model_name=model_name,
             material_name=material_name,
             env_name=env_name,
@@ -288,7 +282,7 @@ def build_app(df: pd.DataFrame, preview_df: pd.DataFrame) -> gr.Blocks:
         selected = choices[0] if choices else None
         summary = (
             f"Matched **{len(aggregated)}** models, showing **{len(rows)}**. "
-            f"Total instances: **{len(filtered)}**."
         )
         table = shown[model_display_cols] if not shown.empty else pd.DataFrame(columns=model_display_cols)
         meta = rows[0] if rows else {}
@@ -326,7 +320,7 @@ def build_app(df: pd.DataFrame, preview_df: pd.DataFrame) -> gr.Blocks:
         near_light: str,
     ):
         filtered = filter_dataframe_advanced(
-            df,
             model_name=model_name,
             material_name=material_name,
             env_name=env_name,
@@ -374,7 +368,7 @@ def build_app(df: pd.DataFrame, preview_df: pd.DataFrame) -> gr.Blocks:
     with gr.Blocks(title="3DReflecNet Dataset Explorer") as demo:
         gr.Markdown("# 3DReflecNet Dataset Explorer")
         gr.Markdown(
-            "Filter by model/material/environment dropdowns and boolean scene tags, then preview 3D assets or the sampled image subset."
         )
         gr.Markdown(stats_md)
@@ -492,13 +486,11 @@ def main() -> None:
     setup_logging()
     logger.info("DATASET_REPO = %r", DATASET_REPO)
     logger.info("HF_TOKEN set = %s, length = %d", HF_TOKEN is not None, len(HF_TOKEN) if HF_TOKEN else 0)
-    logger.info("Loading dataset metadata from Hugging Face Hub...")
-    df = load_metadata()
-    logger.info("Loaded %d instances.", len(df))
     logger.info("Loading preview subset from Hugging Face Hub...")
     preview_df = load_preview_dataframe()
-    logger.info("Loaded %d preview rows.", len(preview_df))
-    app = build_app(df, preview_df)
     app.launch()

 #!/usr/bin/env python3
 """HF Space entry point for 3DReflecNet dataset preview.
+Loads only data/preview/preview.parquet so the Space exposes the configured
+preview instance subset instead of the full dataset metadata.
 """
 from __future__ import annotations
 # Data loading
 # ---------------------------------------------------------------------------
 def load_preview_dataframe() -> pd.DataFrame:
     """Load the small preview Parquet into memory."""
     PREVIEW_COLS = [
         "instance_id", "split", "frame_id", "rgb", "mask",
         "depth_preview", "normal_preview",
         "main_category", "sub_category", "model_name",
+        "material_name", "env_name", "glb_path",
         "hasGlass", "isGenerated", "transparent", "near_light",
     ]
     ds = load_dataset(
         df,
         [
             "instance_id", "split", "main_category", "sub_category",
+            "model_name", "material_name", "env_name", "glb_path",
         ],
         "preview parquet",
     )
     return df
+def build_preview_instance_dataframe(preview_df: pd.DataFrame) -> pd.DataFrame:
+    """Derive one row per preview instance from preview frame rows."""
+    instance_cols = [
+        "instance_id", "main_category", "sub_category", "model_name",
+        "material_name", "env_name", "hasGlass", "isGenerated",
+        "transparent", "near_light", "glb_path",
+    ]
+    require_columns(preview_df, instance_cols, "preview parquet")
+    rows: list[dict[str, Any]] = []
+    for instance_id, group in preview_df.groupby("instance_id", sort=True):
+        row: dict[str, Any] = {}
+        for col in instance_cols:
+            values = group[col].drop_duplicates().tolist()
+            if len(values) != 1:
+                raise ValueError(f"Inconsistent {col!r} values for preview instance {instance_id!r}.")
+            row[col] = values[0]
+        rows.append(row)
+    df = pd.DataFrame(rows, columns=instance_cols)
+    require_text_columns(
+        df,
+        [
+            "instance_id", "main_category", "sub_category",
+            "model_name", "material_name", "env_name", "glb_path",
+        ],
+        "preview instance dataframe",
+    )
+    require_bool_columns(df, BOOL_COLUMNS, "preview instance dataframe")
+    if df["glb_path"].map(lambda value: not value.strip()).any():
+        raise ValueError("Preview instance dataframe contains empty GLB paths.")
+    return df
 def load_instance_frames(
     preview_df: pd.DataFrame, instance_id: str, split: str = "train", max_frames: int = 50,
 ) -> list[dict[str, Any]]:
     return str(local)
+def build_stats_markdown(df: pd.DataFrame, preview_df: pd.DataFrame) -> str:
+    """Generate preview subset overview statistics."""
     total_instances = len(df)
     total_models = df["model_name"].nunique()
+    total_frames = len(preview_df)
     main_cats = df["main_category"].dropna().astype(str)
     main_dist = main_cats.value_counts().head(10)
     dist_lines = " | ".join(f"**{cat}**: {cnt}" for cat, cnt in main_dist.items())
     return (
+        f"**Preview Subset** — "
         f"**{total_instances}** instances, "
+        f"**{total_frames}** frames, "
         f"**{total_models}** models, "
         f"**{main_cats.nunique()}** main categories\n\n"
         f"Distribution: {dist_lines}"
 # App builder
 # ---------------------------------------------------------------------------
+def build_app(instance_df: pd.DataFrame, preview_df: pd.DataFrame) -> gr.Blocks:
+    model_name_choices = get_distinct_text_choices(instance_df, "model_name")
+    material_name_choices = get_distinct_text_choices(instance_df, "material_name")
+    env_name_choices = get_distinct_text_choices(instance_df, "env_name")
     model_display_cols = [
         "model_name",
         "glb_path",
     ]
+    stats_md = build_stats_markdown(instance_df, preview_df)
     # ---- 3D Viewer callbacks ----
         near_light: str,
     ):
         filtered = filter_dataframe_advanced(
+            instance_df,
             model_name=model_name,
             material_name=material_name,
             env_name=env_name,
         selected = choices[0] if choices else None
         summary = (
             f"Matched **{len(aggregated)}** models, showing **{len(rows)}**. "
+            f"Preview instances: **{len(filtered)}**."
         )
         table = shown[model_display_cols] if not shown.empty else pd.DataFrame(columns=model_display_cols)
         meta = rows[0] if rows else {}
         near_light: str,
     ):
         filtered = filter_dataframe_advanced(
+            instance_df,
             model_name=model_name,
             material_name=material_name,
             env_name=env_name,
     with gr.Blocks(title="3DReflecNet Dataset Explorer") as demo:
         gr.Markdown("# 3DReflecNet Dataset Explorer")
         gr.Markdown(
+            "Filter the configured preview subset by model/material/environment dropdowns and boolean scene tags."
         )
         gr.Markdown(stats_md)
     setup_logging()
     logger.info("DATASET_REPO = %r", DATASET_REPO)
     logger.info("HF_TOKEN set = %s, length = %d", HF_TOKEN is not None, len(HF_TOKEN) if HF_TOKEN else 0)
     logger.info("Loading preview subset from Hugging Face Hub...")
     preview_df = load_preview_dataframe()
+    instance_df = build_preview_instance_dataframe(preview_df)
+    logger.info("Loaded %d preview rows for %d preview instance(s).", len(preview_df), len(instance_df))
+    app = build_app(instance_df, preview_df)
     app.launch()