Spaces:

Stephanwu
/

insurance-app-behavior

Running

App Files Files Community

Stephanwu commited on 5 days ago

Commit

15cf95f

verified ·

1 Parent(s): 153f1c7

Add CSV upload support and comprehensive UI

Browse files

Files changed (1) hide show

app.py +427 -57

app.py CHANGED Viewed

@@ -1,18 +1,21 @@
-"""保险APP 用户行为分析 - Gradio Space"""
-import os, json, math, warnings, datetime, random
-from collections import Counter
 from dataclasses import dataclass, field
 from typing import List, Dict, Optional
 warnings.filterwarnings('ignore')
 import numpy as np
 import pandas as pd
-from sklearn.model_selection import train_test_split
-from sklearn.preprocessing import StandardScaler
 from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier
 from sklearn.metrics import (
     roc_auc_score, f1_score, confusion_matrix,
-    average_precision_score, precision_recall_curve, classification_report
 )
 import matplotlib
 matplotlib.use('Agg')
@@ -21,6 +24,10 @@ import seaborn as sns
 import gradio as gr
 INSURANCE_EVENT_TYPES = {
     "page_view", "product_view", "product_compare", "premium_calculator",
     "faq_view", "article_read", "quote_request", "quote_result_view",
@@ -31,6 +38,12 @@ INSURANCE_EVENT_TYPES = {
     "policy_cancel", "app_uninstall", "login", "logout",
 }
 @dataclass
 class InsuranceAppEvent:
     event_id: str; user_id: str; session_id: str; timestamp: int
@@ -88,6 +101,54 @@ class InsuranceFeatureEngineer:
         }
 def generate_synthetic_data(n_users=2000, n_events_per_user=50):
     event_types = list(INSURANCE_EVENT_TYPES)
     products = ["health_basic","health_premium","critical_illness","term_life",
@@ -119,31 +180,55 @@ def generate_synthetic_data(n_users=2000, n_events_per_user=50):
     return data
-def train_model(n_users, n_events, test_size, random_state):
-    data = generate_synthetic_data(n_users=n_users, n_events_per_user=n_events)
-    engineer = InsuranceFeatureEngineer()
-    features_list, labels = [], []
-    for profile, label in data:
-        f = engineer.extract_user_features(profile)
-        if f: features_list.append(f); labels.append(label)
     df = pd.DataFrame(features_list)
     df_full = df.copy()
     for c in df.columns:
         if df[c].dtype == 'object':
             df[c] = pd.to_numeric(df[c], errors='coerce').fillna(0)
     df = df.fillna(0).replace([np.inf, -np.inf], 0)
     X = df.values; y = np.array(labels)
-    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=random_state, stratify=y)
     scaler = StandardScaler()
-    X_train_s = scaler.fit_transform(X_train); X_test_s = scaler.transform(X_test)
-    gbdt = GradientBoostingClassifier(n_estimators=200, max_depth=5, learning_rate=0.1, subsample=0.8, random_state=random_state)
     gbdt.fit(X_train_s, y_train)
-    y_pred_gbdt = gbdt.predict(X_test_s); y_prob_gbdt = gbdt.predict_proba(X_test_s)[:,1]
-    rf = RandomForestClassifier(n_estimators=100, max_depth=10, class_weight='balanced', random_state=random_state, n_jobs=-1)
     rf.fit(X_train_s, y_train)
-    y_prob_rf = rf.predict_proba(X_test_s)[:,1]; y_pred_rf = rf.predict(X_test_s)
     auc_gbdt = float(roc_auc_score(y_test, y_prob_gbdt))
     f1_gbdt = float(f1_score(y_test, y_pred_gbdt))
@@ -151,15 +236,26 @@ def train_model(n_users, n_events, test_size, random_state):
     auc_rf = float(roc_auc_score(y_test, y_prob_rf))
     ap_rf = float(average_precision_score(y_test, y_prob_rf))
-    fi = pd.DataFrame({'feature': list(df.columns), 'importance': rf.feature_importances_}).sort_values('importance', ascending=False)
     os.makedirs("outputs", exist_ok=True)
     fig, ax = plt.subplots(figsize=(12,8))
     top = fi.head(15)
-    ax.barh(top['feature'][::-1], top['importance'][::-1], color='steelblue')
-    ax.set_title('Insurance APP - Top 15 Feature Importance')
-    ax.set_xlabel('Importance')
     plt.tight_layout()
     fig_path1 = "outputs/feature_importance.png"
     plt.savefig(fig_path1, dpi=150, bbox_inches='tight'); plt.close()
@@ -167,29 +263,55 @@ def train_model(n_users, n_events, test_size, random_state):
     fig, ax = plt.subplots(figsize=(8,6))
     pg, rg, _ = precision_recall_curve(y_test, y_prob_gbdt)
     pr, rr, _ = precision_recall_curve(y_test, y_prob_rf)
-    ax.plot(rg, pg, label=f'GBDT AP={ap_gbdt:.3f}')
-    ax.plot(rr, pr, label=f'RF AP={ap_rf:.3f}')
-    ax.set_xlabel('Recall'); ax.set_ylabel('Precision')
-    ax.set_title('Precision-Recall Curve'); ax.legend()
     plt.tight_layout()
     fig_path2 = "outputs/pr_curve.png"
     plt.savefig(fig_path2, dpi=150, bbox_inches='tight'); plt.close()
     fig, axs = plt.subplots(1,2,figsize=(12,5))
-    sns.heatmap(confusion_matrix(y_test, y_pred_gbdt), annot=True, fmt='d', cmap='Blues', ax=axs[0])
-    axs[0].set_title(f'GBDT (AUC={auc_gbdt:.3f})')
-    sns.heatmap(confusion_matrix(y_test, y_pred_rf), annot=True, fmt='d', cmap='Greens', ax=axs[1])
-    axs[1].set_title(f'RF (AUC={auc_rf:.3f})')
     plt.tight_layout()
     fig_path3 = "outputs/confusion_matrix.png"
     plt.savefig(fig_path3, dpi=150, bbox_inches='tight'); plt.close()
     fi_str = fi.head(15).to_string(index=False)
     report = classification_report(y_test, y_pred_gbdt, digits=4)
     result_text = f"""=== 模型训练结果 ===
-样本数: {n_users} | 特征数: {len(df.columns)}
 训练集: {len(y_train)} | 测试集: {len(y_test)}
 --- GBDT ---
 AUC:  {auc_gbdt:.4f}
@@ -199,6 +321,7 @@ AP:   {ap_gbdt:.4f}
 --- Random Forest ---
 AUC:  {auc_rf:.4f}
 AP:   {ap_rf:.4f}
 --- Top 15 特征重要性 ---
 {fi_str}
@@ -206,38 +329,285 @@ AP:   {ap_rf:.4f}
 --- 分类报告 (GBDT) ---
 {report}"""
-    return result_text, fig_path1, fig_path2, fig_path3, df_full
-with gr.Blocks(title="保险APP 用户行为分析模型") as demo:
-    gr.Markdown("""# 🏥 保险APP 用户行为分析模型训练平台
-基于合成数据演示保险APP用户流失预测模型的完整训练流程。
-**核心功能:** 生成合成数据 → 自动特征工程 → 训练 GBDT + RF → 可视化结果
-**参考论文:** Deep Interest Network (KDD 2018) | Transformer Churn Prediction (arXiv 2309.14390) | TabBERT (arXiv 2011.01843)""")
-    with gr.Row():
-        with gr.Column(scale=1):
-            n_users_slider = gr.Slider(500, 5000, value=2000, step=100, label="用户数量")
-            n_events_slider = gr.Slider(10, 100, value=50, step=5, label="每用户最大事件数")
-            test_size_slider = gr.Slider(0.1, 0.4, value=0.2, step=0.05, label="测试集比例")
-            random_seed = gr.Number(value=42, label="随机种子", precision=0)
-            train_btn = gr.Button("🚀 开始训练", variant="primary")
-        with gr.Column(scale=2):
-            result_text = gr.Textbox(label="训练结果", lines=20)
-    with gr.Row():
-        img1 = gr.Image(label="特征重要性")
-        img2 = gr.Image(label="PR曲线")
-    with gr.Row():
-        img3 = gr.Image(label="混淆矩阵")
-        data_table = gr.Dataframe(label="数据样本 (前10行)")
-    train_btn.click(fn=train_model, inputs=[n_users_slider, n_events_slider, test_size_slider, random_seed],
-                    outputs=[result_text, img1, img2, img3, data_table])
-    gr.Markdown("""---
-**事件类型:** 浏览(page_view, product_view) | 交互(quote_request, chat_init) | 转化(payment_success, policy_issued) | 理赔(claim_init) | 续保(renewal_click, policy_cancel)""")
 if __name__ == "__main__":
     demo.launch()

+"""保险APP 用户行为分析 - Gradio Space
+支持: 合成数据训练 + 真实CSV数据上传
+"""
+import os, json, math, warnings, datetime, random, io
+from collections import Counter, defaultdict
 from dataclasses import dataclass, field
 from typing import List, Dict, Optional
 warnings.filterwarnings('ignore')
 import numpy as np
 import pandas as pd
+from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
+from sklearn.preprocessing import StandardScaler, LabelEncoder
 from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier
 from sklearn.metrics import (
     roc_auc_score, f1_score, confusion_matrix,
+    average_precision_score, precision_recall_curve, classification_report,
+    roc_curve
 )
 import matplotlib
 matplotlib.use('Agg')
 import gradio as gr
+# =============================================================================
+# 数据模型
+# =============================================================================
 INSURANCE_EVENT_TYPES = {
     "page_view", "product_view", "product_compare", "premium_calculator",
     "faq_view", "article_read", "quote_request", "quote_result_view",
     "policy_cancel", "app_uninstall", "login", "logout",
 }
+BROWSE_EVENTS = {"page_view", "product_view", "premium_calculator", "article_read", "faq_view", "product_compare"}
+INTERACT_EVENTS = {"quote_request", "form_submit", "document_upload", "chat_init", "call_init", "video_consult", "quote_result_view"}
+CONVERT_EVENTS = {"policy_select", "payment_init", "payment_success", "policy_issued"}
+CLAIM_EVENTS = {"claim_init", "claim_doc_upload", "claim_review", "claim_approved", "claim_rejected"}
+RENEW_EVENTS = {"renewal_reminder", "renewal_click", "renewal_complete", "policy_cancel"}
 @dataclass
 class InsuranceAppEvent:
     event_id: str; user_id: str; session_id: str; timestamp: int
         }
+# =============================================================================
+# 数据解析
+# =============================================================================
+def parse_csv_to_profiles(df: pd.DataFrame) -> List[UserBehaviorProfile]:
+    """将上传的CSV解析为用户行为画像"""
+    required_cols = {"user_id", "session_id", "timestamp", "event_type", "page_id"}
+    missing = required_cols - set(df.columns)
+    if missing:
+        raise ValueError(f"CSV缺少必需列: {missing}\n必需列: {required_cols}")
+    # 标准化列名
+    df = df.copy()
+    df.columns = [c.lower().strip() for c in df.columns]
+    # 转换timestamp为整数
+    df["timestamp"] = pd.to_numeric(df["timestamp"], errors="coerce")
+    df = df.dropna(subset=["timestamp", "event_type"])
+    df["timestamp"] = df["timestamp"].astype(int)
+    # 按user_id和session_id分组
+    profiles = {}
+    for (user_id, session_id), group in df.groupby(["user_id", "session_id"]):
+        if user_id not in profiles:
+            profiles[user_id] = UserBehaviorProfile(user_id=str(user_id), sessions=[])
+        events = []
+        for _, row in group.sort_values("timestamp").iterrows():
+            events.append(InsuranceAppEvent(
+                event_id=f"evt_{row.name}",
+                user_id=str(row["user_id"]),
+                session_id=str(row["session_id"]),
+                timestamp=int(row["timestamp"]),
+                event_type=str(row["event_type"]).strip(),
+                page_id=str(row.get("page_id", "unknown")),
+                product_id=str(row.get("product_id")) if pd.notna(row.get("product_id")) else None,
+                amount=float(row["amount"]) if pd.notna(row.get("amount")) else None,
+            ))
+        profiles[user_id].sessions.append(UserSession(
+            session_id=str(session_id),
+            user_id=str(user_id),
+            events=events
+        ))
+    return list(profiles.values())
 def generate_synthetic_data(n_users=2000, n_events_per_user=50):
     event_types = list(INSURANCE_EVENT_TYPES)
     products = ["health_basic","health_premium","critical_illness","term_life",
     return data
+# =============================================================================
+# 核心训练函数
+# =============================================================================
+def train_model(features_list, labels, test_size=0.2, random_state=42, use_cv=False):
+    """通用训练函数"""
     df = pd.DataFrame(features_list)
     df_full = df.copy()
+    # 移除非数值列
+    drop_cols = [c for c in df.columns if df[c].dtype == 'object']
+    for c in drop_cols:
+        if c in ["top_product_id", "action_sequence"]:
+            df.pop(c)
+    # 处理object类型
     for c in df.columns:
         if df[c].dtype == 'object':
             df[c] = pd.to_numeric(df[c], errors='coerce').fillna(0)
     df = df.fillna(0).replace([np.inf, -np.inf], 0)
     X = df.values; y = np.array(labels)
+    feature_names = list(df.columns)
+    X_train, X_test, y_train, y_test = train_test_split(
+        X, y, test_size=test_size, random_state=random_state, stratify=y
+    )
     scaler = StandardScaler()
+    X_train_s = scaler.fit_transform(X_train)
+    X_test_s = scaler.transform(X_test)
+    # 训练 GBDT
+    gbdt = GradientBoostingClassifier(
+        n_estimators=200, max_depth=5, learning_rate=0.1,
+        subsample=0.8, random_state=random_state
+    )
     gbdt.fit(X_train_s, y_train)
+    y_pred_gbdt = gbdt.predict(X_test_s)
+    y_prob_gbdt = gbdt.predict_proba(X_test_s)[:, 1]
+    # 训练 RF
+    rf = RandomForestClassifier(
+        n_estimators=100, max_depth=10,
+        class_weight='balanced', random_state=random_state, n_jobs=-1
+    )
     rf.fit(X_train_s, y_train)
+    y_prob_rf = rf.predict_proba(X_test_s)[:, 1]
+    y_pred_rf = rf.predict(X_test_s)
     auc_gbdt = float(roc_auc_score(y_test, y_prob_gbdt))
     f1_gbdt = float(f1_score(y_test, y_pred_gbdt))
     auc_rf = float(roc_auc_score(y_test, y_prob_rf))
     ap_rf = float(average_precision_score(y_test, y_prob_rf))
+    fi = pd.DataFrame({
+        'feature': feature_names,
+        'importance': rf.feature_importances_
+    }).sort_values('importance', ascending=False)
+    # 交叉验证
+    cv_scores = None
+    if use_cv and len(y) >= 100:
+        skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=random_state)
+        cv_scores = cross_val_score(rf, X, y, cv=skf, scoring='roc_auc')
+    # 可视化
     os.makedirs("outputs", exist_ok=True)
     fig, ax = plt.subplots(figsize=(12,8))
     top = fi.head(15)
+    colors = plt.cm.RdYlGn(np.linspace(0.2, 0.8, len(top)))[::-1]
+    ax.barh(top['feature'][::-1], top['importance'][::-1], color=colors)
+    ax.set_title('Insurance APP - Top 15 Feature Importance', fontsize=14, fontweight='bold')
+    ax.set_xlabel('Importance Score')
     plt.tight_layout()
     fig_path1 = "outputs/feature_importance.png"
     plt.savefig(fig_path1, dpi=150, bbox_inches='tight'); plt.close()
     fig, ax = plt.subplots(figsize=(8,6))
     pg, rg, _ = precision_recall_curve(y_test, y_prob_gbdt)
     pr, rr, _ = precision_recall_curve(y_test, y_prob_rf)
+    ax.plot(rg, pg, label=f'GBDT AP={ap_gbdt:.3f}', linewidth=2, color='#2E86AB')
+    ax.plot(rr, pr, label=f'RF AP={ap_rf:.3f}', linewidth=2, color='#A23B72')
+    ax.set_xlabel('Recall', fontsize=12)
+    ax.set_ylabel('Precision', fontsize=12)
+    ax.set_title('Precision-Recall Curve', fontsize=14, fontweight='bold')
+    ax.legend(fontsize=11)
+    ax.grid(True, alpha=0.3)
     plt.tight_layout()
     fig_path2 = "outputs/pr_curve.png"
     plt.savefig(fig_path2, dpi=150, bbox_inches='tight'); plt.close()
     fig, axs = plt.subplots(1,2,figsize=(12,5))
+    sns.heatmap(confusion_matrix(y_test, y_pred_gbdt), annot=True, fmt='d', cmap='Blues', ax=axs[0], cbar=False)
+    axs[0].set_title(f'GBDT (AUC={auc_gbdt:.3f})', fontsize=12, fontweight='bold')
+    axs[0].set_xlabel('Predicted'); axs[0].set_ylabel('Actual')
+    sns.heatmap(confusion_matrix(y_test, y_pred_rf), annot=True, fmt='d', cmap='Greens', ax=axs[1], cbar=False)
+    axs[1].set_title(f'RF (AUC={auc_rf:.3f})', fontsize=12, fontweight='bold')
+    axs[1].set_xlabel('Predicted'); axs[1].set_ylabel('Actual')
     plt.tight_layout()
     fig_path3 = "outputs/confusion_matrix.png"
     plt.savefig(fig_path3, dpi=150, bbox_inches='tight'); plt.close()
+    # ROC曲线
+    fig, ax = plt.subplots(figsize=(8,6))
+    fpr_g, tpr_g, _ = roc_curve(y_test, y_prob_gbdt)
+    fpr_r, tpr_r, _ = roc_curve(y_test, y_prob_rf)
+    ax.plot(fpr_g, tpr_g, label=f'GBDT AUC={auc_gbdt:.3f}', linewidth=2, color='#2E86AB')
+    ax.plot(fpr_r, tpr_r, label=f'RF AUC={auc_rf:.3f}', linewidth=2, color='#A23B72')
+    ax.plot([0,1], [0,1], 'k--', alpha=0.5)
+    ax.set_xlabel('False Positive Rate', fontsize=12)
+    ax.set_ylabel('True Positive Rate', fontsize=12)
+    ax.set_title('ROC Curve', fontsize=14, fontweight='bold')
+    ax.legend(fontsize=11)
+    ax.grid(True, alpha=0.3)
+    plt.tight_layout()
+    fig_path4 = "outputs/roc_curve.png"
+    plt.savefig(fig_path4, dpi=150, bbox_inches='tight'); plt.close()
     fi_str = fi.head(15).to_string(index=False)
     report = classification_report(y_test, y_pred_gbdt, digits=4)
+    cv_str = ""
+    if cv_scores is not None:
+        cv_str = f"\n--- 5折交叉验证 (RF AUC) ---\nMean: {cv_scores.mean():.4f} (+/- {cv_scores.std()*2:.4f})\nScores: {cv_scores.round(4).tolist()}"
     result_text = f"""=== 模型训练结果 ===
+样本数: {len(y)} | 特征数: {len(feature_names)}
 训练集: {len(y_train)} | 测试集: {len(y_test)}
+流失率: {y.mean():.1%} | 流失数: {y.sum()}
 --- GBDT ---
 AUC:  {auc_gbdt:.4f}
 --- Random Forest ---
 AUC:  {auc_rf:.4f}
 AP:   {ap_rf:.4f}
+{cv_str}
 --- Top 15 特征重要性 ---
 {fi_str}
 --- 分类报告 (GBDT) ---
 {report}"""
+    return result_text, fig_path1, fig_path2, fig_path3, fig_path4, df_full
+# =============================================================================
+# Gradio 回调函数
+# =============================================================================
+def demo_train(n_users, n_events, test_size, random_state, use_cv):
+    """演示模式: 合成数据训练"""
+    data = generate_synthetic_data(n_users=n_users, n_events_per_user=n_events)
+    engineer = InsuranceFeatureEngineer()
+    features_list, labels = [], []
+    for profile, label in data:
+        f = engineer.extract_user_features(profile)
+        if f: features_list.append(f); labels.append(label)
+    return train_model(features_list, labels, test_size, random_state, use_cv)
+def csv_train(csv_file, label_col, test_size, random_state, use_cv):
+    """CSV模式: 上传数据训练"""
+    if csv_file is None:
+        return "请先上传CSV文件", None, None, None, None, None
+    try:
+        # 读取CSV
+        if isinstance(csv_file, str):
+            df = pd.read_csv(csv_file)
+        else:
+            df = pd.read_csv(csv_file.name if hasattr(csv_file, 'name') else io.BytesIO(csv_file))
+        # 检查标签列
+        label_col = label_col.strip() if label_col else None
+        if label_col and label_col not in df.columns:
+            return f"标签列 '{label_col}' 不存在。可用列: {list(df.columns)}", None, None, None, None, None
+        # 解析为用户画像
+        profiles = parse_csv_to_profiles(df)
+        engineer = InsuranceFeatureEngineer()
+        features_list, labels = [], []
+        for profile in profiles:
+            f = engineer.extract_user_features(profile)
+            if f:
+                features_list.append(f)
+                # 如果有标签列，使用真实标签；否则用启发式规则推断
+                if label_col and label_col in df.columns:
+                    # 找到该用户的标签
+                    user_df = df[df["user_id"] == profile.user_id]
+                    label_val = user_df[label_col].iloc[0] if len(user_df) > 0 else 0
+                    labels.append(int(label_val))
+                else:
+                    # 启发式: 无购买+无续保 = 高风险流失
+                    is_high_risk = (f["has_purchased"] == 0 and f["has_renewed"] == 0
+                                    and f["total_events"] < 20)
+                    labels.append(int(is_high_risk))
+        if len(features_list) < 50:
+            return f"有效样本数 {len(features_list)} 太少，需要至少50个用户", None, None, None, None, None
+        result = train_model(features_list, labels, test_size, random_state, use_cv)
+        return result
+    except Exception as e:
+        import traceback
+        return f"错误: {str(e)}\n\n{traceback.format_exc()}", None, None, None, None, None
+def show_csv_info(csv_file):
+    """显示CSV信息"""
+    if csv_file is None:
+        return "请先上传CSV文件", None
+    try:
+        if isinstance(csv_file, str):
+            df = pd.read_csv(csv_file)
+        else:
+            df = pd.read_csv(csv_file.name if hasattr(csv_file, 'name') else io.BytesIO(csv_file))
+        info = f"""=== CSV文件信息 ===
+行数: {len(df)}
+列数: {len(df.columns)}
+列名: {list(df.columns)}
+=== 前5行预览 ===
+{df.head().to_string()}
+=== 事件类型分布 (前10) ===
+{df['event_type'].value_counts().head(10).to_string() if 'event_type' in df.columns else '无event_type列'}
+=== 用户数量 ===
+{df['user_id'].nunique() if 'user_id' in df.columns else '无user_id列'}
+=== 会话数量 ===
+{df['session_id'].nunique() if 'session_id' in df.columns else '无session_id列'}"""
+        return info, df.head(20)
+    except Exception as e:
+        return f"解析错误: {str(e)}", None
+# =============================================================================
+# Gradio 界面
+# =============================================================================
+with gr.Blocks(title="🏥 保险APP 用户行为分析模型训练平台", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("""
+    # 🏥 保险APP 用户行为分析模型训练平台
+    基于最新研究论文构建的工业级保险用户行为分析平台。
+    **两种模式:**
+    - 🎲 **演示模式**: 生成合成保险APP数据，体验完整训练流程
+    - 📁 **CSV上传**: 上传真实用户行为数据，自动特征工程 + 模型训练
+    **参考论文:** Deep Interest Network (KDD 2018) | Transformer Churn Prediction (arXiv 2309.14390) | TabBERT (arXiv 2011.01843)
+    """)
+    with gr.Tabs():
+        # ===== Tab 1: 演示模式 =====
+        with gr.Tab("🎲 演示模式 (合成数据)"):
+            with gr.Row():
+                with gr.Column(scale=1):
+                    gr.Markdown("### 参数设置")
+                    n_users_slider = gr.Slider(500, 5000, value=2000, step=100, label="用户数量")
+                    n_events_slider = gr.Slider(10, 100, value=50, step=5, label="每用户最大事件数")
+                    test_size_slider = gr.Slider(0.1, 0.4, value=0.2, step=0.05, label="测试集比例")
+                    random_seed = gr.Number(value=42, label="随机种子", precision=0)
+                    use_cv_check = gr.Checkbox(value=False, label="启用5折交叉验证")
+                    train_btn = gr.Button("🚀 开始训练", variant="primary", size="lg")
+                with gr.Column(scale=2):
+                    demo_result = gr.Textbox(label="训练结果", lines=25, show_copy_button=True)
+            with gr.Row():
+                demo_img1 = gr.Image(label="特征重要性")
+                demo_img2 = gr.Image(label="PR曲线")
+            with gr.Row():
+                demo_img3 = gr.Image(label="混淆矩阵")
+                demo_img4 = gr.Image(label="ROC曲线")
+            with gr.Row():
+                demo_table = gr.Dataframe(label="特征数据样本 (前10行)")
+        # ===== Tab 2: CSV上传 =====
+        with gr.Tab("📁 CSV数据上传"):
+            with gr.Row():
+                with gr.Column(scale=1):
+                    gr.Markdown("""
+                    ### 📤 上传数据
+                    **必需列:**
+                    - `user_id`: 用户唯一标识
+                    - `session_id`: 会话标识
+                    - `timestamp`: Unix 时间戳 (毫秒或秒)
+                    - `event_type`: 事件类型
+                    - `page_id`: 页面标识
+                    **可选列:**
+                    - `product_id`: 保险产品ID
+                    - `amount`: 金额/保额
+                    - `label` (或其他): 流失标签 (0/1)
+                    **示例CSV格式:**
+                    ```
+                    user_id,session_id,timestamp,event_type,page_id,product_id,amount
+                    user_001,sess_001,1704067200000,page_view,home,,
+                    user_001,sess_001,1704067230000,product_view,product,health_basic,
+                    user_001,sess_001,1704067260000,quote_request,quote,health_basic,50000
+                    ```
+                    """)
+                    csv_file = gr.File(label="上传CSV文件", file_types=[".csv"])
+                    label_col_input = gr.Textbox(label="标签列名 (可选, 默认自动推断)", placeholder="如: churn, is_churned, label")
+                    with gr.Row():
+                        csv_test_size = gr.Slider(0.1, 0.4, value=0.2, step=0.05, label="测试集比例")
+                        csv_random_seed = gr.Number(value=42, label="随机种子", precision=0)
+                    csv_use_cv = gr.Checkbox(value=False, label="启用5折交叉验证")
+                    with gr.Row():
+                        info_btn = gr.Button("📊 查看数据信息", variant="secondary")
+                        csv_train_btn = gr.Button("🚀 训练模型", variant="primary", size="lg")
+                with gr.Column(scale=2):
+                    csv_info = gr.Textbox(label="CSV信息", lines=15, show_copy_button=True)
+                    csv_preview = gr.Dataframe(label="数据预览")
+            with gr.Row():
+                csv_result = gr.Textbox(label="训练结果", lines=25, show_copy_button=True)
+            with gr.Row():
+                csv_img1 = gr.Image(label="特征重要性")
+                csv_img2 = gr.Image(label="PR曲线")
+            with gr.Row():
+                csv_img3 = gr.Image(label="混淆矩阵")
+                csv_img4 = gr.Image(label="ROC曲线")
+            with gr.Row():
+                csv_table = gr.Dataframe(label="特征数据样本 (前10行)")
+        # ===== Tab 3: 帮助文档 =====
+        with gr.Tab("❓ 帮助文档"):
+            gr.Markdown("""
+            ## 事件类型定义
+            | 类别 | 事件 | 业务含义 |
+            |------|------|---------|
+            | **浏览** | page_view, product_view, premium_calculator, article_read, faq_view, product_compare | 用户浏览保险产品页面 |
+            | **交互** | quote_request, form_submit, document_upload, chat_init, call_init, video_consult, quote_result_view | 用户深度参与行为 |
+            | **转化** | policy_select, payment_init, payment_success, policy_issued | 核心KPI转化行为 |
+            | **理赔** | claim_init, claim_doc_upload, claim_review, claim_approved, claim_rejected | 理赔全流程 |
+            | **续保** | renewal_reminder, renewal_click, renewal_complete, policy_cancel | 续保/流失信号 |
+            | **其他** | login, logout, app_uninstall | 登录/登出/卸载 |
+            ## 特征工程说明
+            平台自动提取 **30+维行为特征**:
+            | 维度 | 特征示例 | 业务含义 |
+            |------|---------|---------|
+            | 基础活跃度 | total_sessions, total_events, days_active | 用户使用APP的活跃程度 |
+            | 浏览深度 | product_view_ratio, article_read_ratio | 内容消费深度 |
+            | 转化信号 | payment_success_ratio, policy_issued_ratio | 购买/续保意愿 |
+            | 生命周期 | has_purchased, has_renewed, has_claimed | 客户价值阶段 |
+            | 时序行为 | recent_7day_events, days_since_last_event | 近期活跃/沉默 |
+            | 行为模式 | peak_active_hour, weekend_activity_ratio | 使用习惯 |
+            ## 模型说明
+            | 模型 | 特点 | 适用场景 |
+            |------|------|---------|
+            | **GBDT** | 高精度, 可解释 | 流失预测, 欺诈检测 |
+            | **Random Forest** | 抗过拟合, 特征重要性 | 特征筛选, 基线模型 |
+            ## 评估指标
+            - **AUC-ROC**: 分类器整体区分能力
+            - **F1-Score**: 精确率和召回率的调和平均
+            - **AP (Average Precision)**: PR曲线下面积, 适合不平衡数据
+            - **交叉验证**: 5折StratifiedKFold, 评估模型稳定性
+            ## 注意事项
+            1. 保险场景数据高度不平衡 (流失率 < 5%), 请使用 F1/AP 而非 Accuracy
+            2. 建议至少 1000+ 用户样本才能获得稳定结果
+            3. timestamp 支持毫秒或秒, 平台自动识别
+            4. 无标签列时, 平台使用启发式规则自动推断 (无购买+低活跃 = 高风险)
+            """)
+    gr.Markdown("""
+    ---
+    <div align="center">
+    <b>保险APP 用户行为分析模型训练平台</b> |
+    基于 <a href="https://arxiv.org/abs/1706.06978">DIN</a> |
+    <a href="https://arxiv.org/abs/2309.14390">Churn Transformer</a> |
+    <a href="https://arxiv.org/abs/2011.01843">TabBERT</a> |
+    作者: <a href="https://huggingface.co/Stephanwu">Stephanwu</a>
+    </div>
+    """)
+    # ===== 事件绑定 =====
+    train_btn.click(
+        fn=demo_train,
+        inputs=[n_users_slider, n_events_slider, test_size_slider, random_seed, use_cv_check],
+        outputs=[demo_result, demo_img1, demo_img2, demo_img3, demo_img4, demo_table]
+    )
+    info_btn.click(
+        fn=show_csv_info,
+        inputs=[csv_file],
+        outputs=[csv_info, csv_preview]
+    )
+    csv_train_btn.click(
+        fn=csv_train,
+        inputs=[csv_file, label_col_input, csv_test_size, csv_random_seed, csv_use_cv],
+        outputs=[csv_result, csv_img1, csv_img2, csv_img3, csv_img4, csv_table]
+    )
 if __name__ == "__main__":
     demo.launch()