Spaces:

wehe1pwe
/

math-under-llm

Running

App Files Files Community

Alex W. commited on 11 days ago

Commit

357d754

1 Parent(s): 38fc6ed

add 2 UI tabs.

Browse files

Files changed (2) hide show

ui/tab_database.py +233 -0
ui/tab_leaderboard.py +163 -0

ui/tab_database.py ADDED Viewed

	@@ -0,0 +1,233 @@

+# ui/tab_database.py
+"""
+Tab4：数据库浏览
+- 查看已分析模型列表
+- 查看某模型的逐层原始数据
+- 数据库统计信息
+"""
+import gradio as gr
+import pandas as pd
+from db.schema import init_db, get_db_stats
+from db.reader import (
+    get_analyzed_models,
+    get_model_summary,
+    get_layer_metrics,
+    get_resume_status,
+)
+def load_db_stats() -> str:
+    """获取数据库统计信息"""
+    conn  = init_db()
+    stats = get_db_stats(conn)
+    return (
+        f"📊 数据库统计\n"
+        f"{'─'*40}\n"
+        f"  模型数：     {stats.get('models', 0)}\n"
+        f"  组件数：     {stats.get('components', 0)}\n"
+        f"  层头记录数： {stats.get('layer_head_metrics', 0)}\n"
+        f"  汇总行数：   {stats.get('model_summary', 0)}\n"
+        f"  数据库大小： {stats.get('db_size_mb', 0)} MB\n"
+    )
+def load_model_list() -> pd.DataFrame:
+    """加载已分析模型列表"""
+    conn = init_db()
+    df   = get_analyzed_models(conn)
+    if df.empty:
+        return pd.DataFrame(
+            columns=["model_id", "model_type", "analyzed_at",
+                     "analyze_sec", "n_components", "total_layers"]
+        )
+    return df
+def load_model_detail(model_id: str) -> tuple[pd.DataFrame, pd.DataFrame, str]:
+    """
+    加载模型详情
+    返回 (summary_df, 断点续传状态文本)
+    """
+    if not model_id.strip():
+        return pd.DataFrame(), pd.DataFrame(), "请输入模型 ID"
+    conn = init_db()
+    # 汇总统计
+    summary_df = get_model_summary(conn, model_id.strip())
+    # 断点续传状态（按前缀）
+    status_lines = [f"📍 断点续传状态：{model_id}\n{'─'*50}\n"]
+    if not summary_df.empty:
+        for pfx in summary_df["prefix"].unique():
+            rs = get_resume_status(conn, model_id.strip(), pfx)
+            status_lines.append(
+                f"  [{pfx}]\n"
+                f"    已完成层数：{rs['total_done']}\n"
+                f"    层号：{sorted(rs['done_layers'])}\n"
+            )
+    else:
+        status_lines.append("  暂无数据\n")
+    return summary_df, "".join(status_lines)
+def load_layer_data(
+    model_id:    str,
+    prefix:      str,
+    layer_type:  str,
+    start_layer: int,
+    end_layer:   int,
+) -> tuple[pd.DataFrame, str]:
+    """加载逐头原始数据"""
+    if not model_id.strip():
+        return pd.DataFrame(), "请输入模型 ID"
+    conn = init_db()
+    lt   = layer_type if layer_type != "all" else None
+    pfx  = prefix.strip() or None
+    df = get_layer_metrics(
+        conn,
+        model_id    = model_id.strip(),
+        prefix      = pfx,
+        layer_type  = lt,
+        start_layer = int(start_layer),
+        end_layer   = int(end_layer),
+    )
+    if df.empty:
+        return pd.DataFrame(), f"⚠️ 无数据：model={model_id} prefix={pfx} layer_type={lt}"
+    status = (
+        f"✅ {len(df)} 条记录  "
+        f"| 层 {df['layer'].min()}~{df['layer'].max()}  "
+        f"| prefix={pfx or '全部'}"
+    )
+    return df, status
+# ─────────────────────────────────────────────
+# Tab4 UI
+# ─────────────────────────────────────────────
+def build_tab_database():
+    with gr.Tab("🗄️ 数据库"):
+        gr.Markdown("## 数据库浏览  \n查看已分析模型的原始数据和汇总统计。")
+        # ── 数据库统计 ──────────────────────────
+        with gr.Row():
+            stats_text = gr.Textbox(
+                label="数据库统计",
+                value="点击刷新",
+                lines=7,
+                interactive=False,
+                scale=2,
+            )
+            refresh_stats_btn = gr.Button(
+                "🔄 刷新统计", scale=1, variant="secondary"
+            )
+        refresh_stats_btn.click(
+            fn=load_db_stats,
+            outputs=stats_text,
+        )
+        gr.Markdown("---")
+        # ── 已分析模型列表 ──────────────────────
+        gr.Markdown("### 已分析模型")
+        with gr.Row():
+            refresh_models_btn = gr.Button(
+                "🔄 刷新模型列表", variant="secondary"
+            )
+        models_table = gr.Dataframe(
+            label="已分析模型",
+            interactive=False,
+        )
+        refresh_models_btn.click(
+            fn=load_model_list,
+            outputs=models_table,
+        )
+        gr.Markdown("---")
+        # ── 模型详情 ────────────────────────────
+        gr.Markdown("### 模型详情 & 断点续传状态")
+        with gr.Row():
+            detail_model_id = gr.Textbox(
+                label="模型 ID",
+                placeholder="google/gemma-4-e2b",
+                scale=3,
+            )
+            load_detail_btn = gr.Button(
+                "📋 查看详情", variant="secondary", scale=1
+            )
+        resume_status_text = gr.Textbox(
+            label="断点续传状态",
+            lines=8,
+            interactive=False,
+        )
+        summary_table = gr.Dataframe(
+            label="模型汇总统计（all/standard/global 三行）",
+            interactive=False,
+        )
+        load_detail_btn.click(
+            fn=load_model_detail,
+            inputs=[detail_model_id],
+            outputs=[summary_table, resume_status_text],
+        )
+        gr.Markdown("---")
+        # ── 逐头原始数据 ────────────────────────
+        gr.Markdown("### 逐头原始数据查询")
+        with gr.Row():
+            raw_model_id = gr.Textbox(
+                label="模型 ID",
+                placeholder="google/gemma-4-e2b",
+                scale=2,
+            )
+            raw_prefix = gr.Textbox(
+                label="组件前缀（留空=全部）",
+                placeholder="model.language_model.",
+                scale=2,
+            )
+            raw_layer_type = gr.Dropdown(
+                label="层类型",
+                choices=["all", "standard", "global"],
+                value="all",
+                scale=1,
+            )
+        with gr.Row():
+            raw_start = gr.Number(
+                label="起始层号", value=0, precision=0, scale=1
+            )
+            raw_end = gr.Number(
+                label="结束层号", value=10, precision=0, scale=1
+            )
+            load_raw_btn = gr.Button(
+                "🔍 查询数据", variant="secondary", scale=1
+            )
+        raw_status = gr.Textbox(
+            label="查询状态", lines=1, interactive=False
+        )
+        raw_table = gr.Dataframe(
+            label="逐头原始数据",
+            interactive=False,
+            wrap=False,
+        )
+        load_raw_btn.click(
+            fn=load_layer_data,
+            inputs=[raw_model_id, raw_prefix, raw_layer_type,
+                    raw_start, raw_end],
+            outputs=[raw_table, raw_status],
+        )

ui/tab_leaderboard.py ADDED Viewed

	@@ -0,0 +1,163 @@

+# ui/tab_leaderboard.py
+"""
+Tab3：王氏评分排行榜
+- 从 model_summary 读取，按 wang_score 降序
+- 支持按组件过滤（language_model / vision_tower / all）
+- 支持按 layer_type 过滤（standard / global / all）
+"""
+import gradio as gr
+import pandas as pd
+import numpy as np
+from db.schema import init_db
+from db.reader import get_leaderboard
+# ─────────────────────────────────────────────
+# 排行榜列格式化
+# ─────────────────────────────────────────────
+def _format_leaderboard(df: pd.DataFrame) -> pd.DataFrame:
+    """格式化排行榜显示列"""
+    if df.empty:
+        return df
+    # 提取可读的模型名（去掉 org 前缀）
+    df = df.copy()
+    df["model_name"] = df["model_id"].apply(
+        lambda x: x.split("/")[-1] if "/" in x else x
+    )
+    # 王氏评分百分制（便于直觉理解）
+    df["wang_score_pct"] = df["wang_score"].apply(
+        lambda x: f"{x*100:.3f}" if pd.notna(x) else "N/A"
+    )
+    # 格式化关键指标
+    for col in ["median_pearson_QK", "median_ssr_QK", "mean_ssr_QK"]:
+        if col in df.columns:
+            df[col] = df[col].apply(
+                lambda x: f"{x:.6f}" if pd.notna(x) else "N/A"
+            )
+    # 选择展示列
+    display_cols = [
+        "model_name",
+        "prefix",
+        "layer_type",
+        "wang_score_pct",
+        "median_pearson_QK",
+        "median_ssr_QK",
+        "mean_ssr_QK",
+        "median_cosU_QK",
+        "median_cosU_QV",
+        "median_cosV_QK",
+        "n_layers",
+        "n_records",
+        "model_id",       # 完整 ID 放最后
+    ]
+    existing = [c for c in display_cols if c in df.columns]
+    return df[existing]
+def load_leaderboard(
+    prefix_filter: str,
+    layer_type:    str,
+) -> tuple[pd.DataFrame, str]:
+    """
+    加载排行榜数据
+    返回 (DataFrame, 状态文本)
+    """
+    conn = init_db()
+    # prefix_filter 空字符串 → None（不过滤）
+    pfx = prefix_filter.strip() or None
+    lt  = layer_type if layer_type != "all" else "standard"
+    df = get_leaderboard(conn, prefix_filter=pfx, layer_type=lt, limit=100)
+    if df.empty:
+        return pd.DataFrame(), (
+            "📭 排行榜暂无数据\n"
+            "请先在「分析」Tab 分析至少一个模型的完整层。\n"
+            f"（当前过滤：prefix='{pfx}', layer_type='{lt}'）"
+        )
+    formatted = _format_leaderboard(df)
+    status = (
+        f"✅ 共 {len(formatted)} 条记录  "
+        f"| layer_type={lt}  "
+        f"| prefix_filter='{pfx or '全部'}'"
+    )
+    return formatted, status
+# ─────────────────────────────────────────────
+# Tab3 UI
+# ─────────────────────────────────────────────
+def build_tab_leaderboard():
+    with gr.Tab("🏆 排行榜"):
+        gr.Markdown("""
+        ## 王氏评分排行榜
+        **Wang Score = 1 − median(SSR_QK)**，越高越好（理论极值 = 1）
+        基于 `standard` 层计算（排除 K=V 共享的全局层干扰）。
+        """)
+        with gr.Row():
+            prefix_input = gr.Textbox(
+                label="组件过滤（含关键词即匹配，留空=全部）",
+                placeholder="language_model",
+                value="",
+                scale=3,
+            )
+            layer_type_input = gr.Dropdown(
+                label="层类型",
+                choices=["standard", "global", "all"],
+                value="standard",
+                scale=1,
+            )
+            refresh_btn = gr.Button("🔄 刷新排行榜", variant="primary", scale=1)
+        status_text = gr.Textbox(
+            label="状态",
+            value="点击「刷新排行榜」加载数据",
+            lines=1,
+            interactive=False,
+        )
+        leaderboard_table = gr.Dataframe(
+            label="王氏评分排行榜（按 Wang Score 降序）",
+            headers=[
+                "model_name", "prefix", "layer_type",
+                "wang_score_pct",
+                "median_pearson_QK", "median_ssr_QK", "mean_ssr_QK",
+                "median_cosU_QK", "median_cosU_QV", "median_cosV_QK",
+                "n_layers", "n_records", "model_id",
+            ],
+            interactive=False,
+            wrap=True,
+        )
+        gr.Markdown("""
+        ### 指标说明
+        | 指标 | 含义 | 越好 |
+        |------|------|------|
+        | Wang Score | 1 − median(SSR_QK)，综合推理能力评分 | ↑ 高 |
+        | median_pearson_QK | Q/K 奇异值谱 Pearson 相关中位数（第一定律） | ↑ 高 |
+        | median_ssr_QK | Q/K 归一化谱失配中位数（第二定律） | ↓ 低 |
+        | median_cosU_QK | Q/K 输出子空间对齐（第四定律，≈随机正交） | ≈ 1/√d |
+        | median_cosU_QV | Q/V 输出子空间（第四定律，超正交） | ↓ 低 |
+        | median_cosV_QK | Q/K 输入子空间（第五定律，≈随机正交） | ≈ 1/√D |
+        """)
+        # 事件绑定
+        refresh_btn.click(
+            fn=load_leaderboard,
+            inputs=[prefix_input, layer_type_input],
+            outputs=[leaderboard_table, status_text],
+        )
+        # 启动时自动加载
+        leaderboard_table.change(fn=None)