Spaces:

Stephanwu
/

insurance-app-behavior

Running

App Files Files Community

Stephanwu commited on 1 day ago

Commit

00eebd4

verified ·

1 Parent(s): b5c9d30

Update README for v3.0 with all new features documented

Browse files

Files changed (1) hide show

README.md +205 -90

README.md CHANGED Viewed

@@ -1,146 +1,261 @@
----
-tags:
-- ml-intern
----
-# 🏥 保险APP 用户行为分析模型训练平台
-基于最新研究论文构建的工业级保险APP用户行为分析平台，支持**合成数据演示**和**真实CSV数据上传**两种模式。
 🔗 **在线体验**: https://huggingface.co/spaces/Stephanwu/insurance-app-behavior
 ---
-## 📋 功能特性
-| 功能 | 说明 |
-|------|------|
-| 🎲 **合成数据训练** | 生成模拟保险APP用户行为数据，自动标注流失/留存标签 |
-| 📁 **CSV数据上传** | 上传真实用户行为CSV，自动特征工程 + 模型训练 |
-| 🔍 **自动特征工程** | 提取 30+ 维行为特征：浏览深度、转化漏斗、生命周期、时序模式 |
-| 🤖 **双模型对比** | GBDT (Gradient Boosting) + Random Forest |
-| 📊 **可视化分析** | 特征重要性、PR曲线、混淆矩阵、数据样本 |
 ---
-## 📊 数据格式说明
-### 支持的事件类型 (30种)
-| 类别 | 事件 |
-|------|------|
-| **浏览** | `page_view`, `product_view`, `premium_calculator`, `article_read`, `faq_view` |
-| **交互** | `quote_request`, `form_submit`, `document_upload`, `chat_init`, `call_init`, `video_consult` |
-| **转化** | `policy_select`, `payment_init`, `payment_success`, `policy_issued` |
-| **理赔** | `claim_init`, `claim_doc_upload`, `claim_review`, `claim_approved`, `claim_rejected` |
-| **续保** | `renewal_reminder`, `renewal_click`, `renewal_complete`, `policy_cancel` |
-| **其他** | `login`, `logout`, `app_uninstall` |
-### CSV 上传格式
-上传 CSV 需包含以下列：
 ```csv
 user_id,session_id,timestamp,event_type,page_id,product_id,amount
-user_001,sess_001,1704067200000,page_view,home_page,,
-user_001,sess_001,1704067230000,product_view,product_detail,health_basic,
-user_001,sess_001,1704067260000,quote_request,quote_form,health_basic,50000
-user_001,sess_001,1704067290000,payment_success,payment_page,health_basic,50000
 ```
-**必需列**:
-- `user_id`: 用户唯一标识
-- `session_id`: 会话标识
-- `timestamp`: Unix 时间戳 (毫秒)
-- `event_type`: 事件类型 (见上表)
-- `page_id`: 页面标识
-**可选列**:
-- `product_id`: 保险产品ID
-- `amount`: 金额/保额
 ---
-## 🧠 模型架构
-### 1. 用户流失预测 (ChurnPredictionTransformer)
-> 参考: *Early Churn Prediction from Large Scale User-Product Interaction Time Series* (arXiv 2309.14390)
-- **输入**: 用户最近 100 个行为的嵌入序列 + 连续统计特征
-- **架构**: 6层 Transformer, d_model=128, 8头注意力
-- **训练**: Adam, lr=1e-4, batch_size=4096
-- **评估**: PR-AUC, F1-score
-### 2. 保险产品推荐 (InsuranceProductDIN)
-> 参考: *Deep Interest Network for Click-Through Rate Prediction* (KDD 2018, arXiv 1706.06978)
-- **核心**: 局部激活注意力 (LocalActivationUnit)
-- ** insight**: 用户兴趣表示随候选产品动态变化
-- **部署**: 预计算行为嵌入 → Feature Store → 实时注意力计算 (<100ms)
-### 3. 异常行为检测 (TabularBERT)
-> 参考: *Tabular Transformers for Modeling Multivariate Time Series* (arXiv 2011.01843)
-- **架构**: 层次化 BERT (Field Transformer → Sequence Transformer)
-- **预训练**: MLM on 历史理赔记录 (不含 fraud label)
-- **评估**: F1-score (fraud < 1%, accuracy 误导)
 ---
 ## ⚠️ 不平衡数据处理
-保险场景数据高度不平衡 (流失率通常 < 5%, 欺诈率 < 1%)：
-| 技术 | 实现 |
-|------|------|
-| **类别权重** | `class_weight='balanced'` (Random Forest) |
-| **上采样** | SMOTE / 重采样 minority 至 50:50 |
-| **损失函数** | Focal Loss (α=0.25, γ=2.0) |
-| **评估指标** | **不用 Accuracy**, 用 F1 + PR-AUC + G-mean |
 ---
-## 🚀 生产部署架构
 ```
-SDK埋点 → Kafka → Flink清洗 → HDFS/S3
-                ↓
-        离线: Spark批处理 → GPU训练
-        在线: Flink窗口聚合 → Redis Feature Store
-                ↓
-        推理: 预计算嵌入 → 注意力计算 → <100ms
-        服务: Triton/TensorRT + REST/gRPC
-        监控: Trackio + 业务指标看板
 ```
 ---
-## 📦 本地运行
-```bash
-# 克隆仓库
-git clone https://huggingface.co/spaces/Stephanwu/insurance-app-behavior
-# 安装依赖
-pip install -r requirements.txt
-# 启动
-python app.py
 ```
 ---
 ## 📚 参考文献
-| 论文 | 应用 | 链接 |
-|------|------|------|
-| Deep Interest Network (KDD 2018) | 产品推荐 | [arXiv:1706.06978](https://arxiv.org/abs/1706.06978) |
-| SDIM (SIGIR 2022) | 长期行为建模 | [arXiv:2205.10249](https://arxiv.org/abs/2205.10249) |
-| FMLP-Rec (WWW 2022) | 去噪序列推荐 | [arXiv:2202.13556](https://arxiv.org/abs/2202.13556) |
-| TabBERT/TabFormer | 表格时序异常检测 | [arXiv:2011.01843](https://arxiv.org/abs/2011.01843) |
-| Transformer Churn | 非合约流失预测 | [arXiv:2309.14390](https://arxiv.org/abs/2309.14390) |
-| FinDeepBehaviorCluster | 欺诈行为聚类 | [arXiv:2101.04285](https://arxiv.org/abs/2101.04285) |
 ---
-**作者**: [Stephanwu](https://huggingface.co/Stephanwu)
-**许可证**: MIT

+# 🏥 保险APP 用户行为分析模型训练平台 v3.0
+基于最新研究论文构建的**工业级保险用户行为分析平台**，支持**7大功能模块**：演示模式、CSV上传、产品推荐、异常检测、模型管理、生存分析、帮助文档。
 🔗 **在线体验**: https://huggingface.co/spaces/Stephanwu/insurance-app-behavior
 ---
+## 📋 功能总览
+| Tab | 功能 | 模型/方法 | 参考文献 |
+|------|------|----------|---------|
+| 🎲 演示 | 合成数据训练 | GBDT + Random Forest | sklearn |
+| 📁 CSV上传 | 真实数据训练 | GBDT + RF + 自动特征工程 | sklearn |
+| 🎯 产品推荐 | DIN深度学习 | PyTorch + LocalActivationUnit | [DIN KDD 2018](https://arxiv.org/abs/1706.06978) |
+| 🔍 异常检测 | TabBERT | PyTorch + Transformer + Focal Loss | [TabBERT](https://arxiv.org/abs/2011.01843) |
+| 💾 模型管理 | HF Hub 保存/加载 | joblib + torch.save | HuggingFace Hub |
+| ⏱️ 生存分析 | Cox-PH + DeepSurv | lifelines + PyTorch Neural Cox-PH | [DeepSurv](https://arxiv.org/abs/1606.00931) |
+| ❓ 帮助 | 完整文档 | - | - |
 ---
+## 🎯 六大核心模型
+### 1. 用户流失预测 (ChurnPrediction)
+**方法**: Gradient Boosting + Random Forest
+- 输入: 30+维用户行为统计特征
+- 输出: 流失概率
+- 评估: AUC-ROC, F1-Score, AP, 5折交叉验证
+### 2. 保险产品推荐 (DIN)
+**方法**: Deep Interest Network (KDD 2018)
+- **核心**: LocalActivationUnit 注意力机制
+- **输入**: 用户历史行为序列 + 候选保险产品
+- **输出**: 购买概率 + 注意力权重可视化
+- ** insight**: 用户兴趣表示随候选产品动态变化
+```
+用户历史: [event_1, product_1], [event_2, product_2], ...
+       ↓ Embedding
+事件嵌入(D/2) + 产品嵌入(D/2) → 行为嵌入(D)
+       ↓
+候选产品 Embedding ───┐
+                       ↓
+         [c, b, c-b, c*b] → Attention MLP → 权重 α
+                       ↓
+            加权求和 → 兴趣向量(D)
+                       ↓
+   [用户, 兴趣, 候选, 交互, 统计特征] → MLP → 购买概率
+```
+### 3. 异常行为检测 (TabBERT)
+**方法**: TabularBERT + Focal Loss
+- **核心**: 层次化Transformer + 不平衡数据处理
+- **损失**: Focal Loss (α=0.25, γ=2.0) — 聚焦难分异常样本
+- **输入**: 理赔记录多维特征
+- **输出**: 异常分数 + 最佳阈值推荐
+### 4. 生存分析 (Survival Analysis)
+**统计方法**: lifelines Cox-PH + Kaplan-Meier
+- **输入**: 用户年龄、性别、收入、保单类型、保额
+- **输出**: 生存函数 S(t) = P(T > t)
+- **可视化**: KM曲线、Cox系数、风险分层
+**深度方法**: DeepSurv (Neural Cox-PH)
+- **架构**: MLP预测log hazard ratio
+- **损失**: Cox partial likelihood
+- **优势**: 学习非线性特征交互
+- **评估**: Concordance Index (C-index)
+### 5. 模型管理 (HF Hub)
+**保存**: 一键上传 sklearn + PyTorch 模型到 Hugging Face Hub
+**加载**: 从 Hub 下载模型, 恢复训练指标和可视化
+---
+## 📊 数据格式
+### CSV 上传格式
 ```csv
 user_id,session_id,timestamp,event_type,page_id,product_id,amount
+user_001,sess_001,1704067200000,page_view,home,,
+user_001,sess_001,1704067230000,product_view,product,health_basic,
+user_001,sess_001,1704067260000,quote_request,quote,health_basic,50000
+user_001,sess_001,1704067290000,payment_success,payment,health_basic,50000
 ```
+**必需列**: `user_id`, `session_id`, `timestamp`, `event_type`, `page_id`
+**可选列**: `product_id`, `amount`, `label`(流失标签)
+### 事件类型 (30种)
+| 类别 | 事件 |
+|------|------|
+| **浏览** | page_view, product_view, premium_calculator, article_read, faq_view, product_compare |
+| **交互** | quote_request, form_submit, document_upload, chat_init, call_init, video_consult, quote_result_view |
+| **转化** | policy_select, payment_init, payment_success, policy_issued |
+| **理赔** | claim_init, claim_doc_upload, claim_review, claim_approved, claim_rejected |
+| **续保** | renewal_reminder, renewal_click, renewal_complete, policy_cancel |
+| **其他** | login, logout, app_uninstall |
 ---
+## 🚀 使用方式
+### 在线使用
+直接访问: https://huggingface.co/spaces/Stephanwu/insurance-app-behavior
+### 本地运行
+```bash
+# 克隆仓库
+git clone https://huggingface.co/spaces/Stephanwu/insurance-app-behavior
+# 安装依赖 (torch 较大, 需几分钟)
+pip install -r requirements.txt
+# 启动
+python app.py
+```
+### Docker 运行
+```bash
+docker run -p 7860:7860 --platform=linux/amd64 \
+    -e HF_TOKEN="your_token" \
+    registry.hf.space/stephanwu-insurance-app-behavior:latest
+```
 ---
 ## ⚠️ 不平衡数据处理
+保险场景数据高度不平衡 (流失率 < 5%, 欺诈率 < 1%)：
+| 技术 | 实现 | 适用场景 |
+|------|------|---------|
+| **类别权重** | `class_weight='balanced'` | Random Forest |
+| **Focal Loss** | `α=0.25, γ=2.0` | PyTorch 深度学习 |
+| **上采样** | SMOTE / 重采样 | 训练前预处理 |
+| **评估指标** | **不用 Accuracy**, 用 F1 + PR-AUC | 所有不平衡场景 |
 ---
+## 📦 文件结构
 ```
+Stephanwu/insurance-app-behavior/
+├── app.py              (86 KB)  主程序 — 7个Tab完整功能
+├── models.py           (23 KB)  深度学习模型定义 (DIN, TabBERT, Transformer)
+├── README.md           (7 KB)   完整文档
+├── requirements.txt    (188 B)  依赖清单
+└── .gitattributes      (1.5 KB) Git配置
 ```
 ---
+## 🧠 模型架构详解
+### DIN (Deep Interest Network)
+```python
+# LocalActivationUnit 核心
+candidate_emb = embed(candidate_product)          # (B, D)
+behavior_emb = embed(events) + embed(products)    # (B, L, D)
+# 4路交互特征
+interaction = concat([
+    candidate_emb,           # 候选产品
+    behavior_emb,            # 历史行为
+    candidate - behavior,     # 差异
+    candidate * behavior,    # 点积
+])  # (B, L, 4D)
+# 注意力权重
+attention_weights = MLP(interaction)  # (B, L)
+attention_weights = softmax(attention_weights)
+# 加权兴趣
+interest = sum(behavior_emb * attention_weights)  # (B, D)
+# 预测
+logits = MLP(concat([user, interest, candidate, interaction, stats]))
+```
+### TabBERT (简化版)
+```python
+# 层次化Transformer
+input_features = [claim_amount, claim_type, days_since_policy, ...]
+          ↓
+    Linear Projection: d_model (128)
+          ↓
+    ┌────────────────────────┐
+    │  Transformer × 4       │  # 模拟 Field + Sequence level
+    │  LayerNorm + Dropout    │
+    └────────────────────────┘
+          ↓
+    Global Average Pooling
+          ↓
+    MLP: 128 → 256 → 64 → 1
+          ↓
+    Focal Loss (解决1:4不平衡)
+```
+### DeepSurv (Neural Cox-PH)
+```python
+# Cox partial likelihood loss
+def cox_ph_loss(pred, time, event):
+    # Sort by time descending
+    pred_sorted = pred[argsort(time, descending=True)]
+    event_sorted = event[argsort(time, descending=True)]
+    # logcumsumexp for numerical stability
+    log_cumsum_h = logcumsumexp(pred_sorted)
+    # Only event samples contribute
+    loss = -sum(event * (pred - log_cumsum_h)) / sum(event)
+    return loss
+# Survival probability
+S(t | x) = exp(-H_0(t) * exp(pred(x)))
 ```
 ---
 ## 📚 参考文献
+| 论文 | 应用 | arXiv | 会议 |
+|------|------|-------|------|
+| Deep Interest Network | 产品推荐 | [1706.06978](https://arxiv.org/abs/1706.06978) | KDD 2018 |
+| SDIM | 长期行为建模 | [2205.10249](https://arxiv.org/abs/2205.10249) | SIGIR 2022 |
+| FMLP-Rec | 去噪序列推荐 | [2202.13556](https://arxiv.org/abs/2202.13556) | WWW 2022 |
+| TabBERT/TabFormer | 表格时序异常检测 | [2011.01843](https://arxiv.org/abs/2011.01843) | - |
+| Transformer Churn | 非合约流失预测 | [2309.14390](https://arxiv.org/abs/2309.14390) | - |
+| DeepSurv | 生存分析 | [1606.00931](https://arxiv.org/abs/1606.00931) | JAMIA 2018 |
+| RNN Survival | 购买时序预测 | [2304.00575](https://arxiv.org/abs/2304.00575) | - |
+| Focal Loss | 不平衡分类 | [1708.02002](https://arxiv.org/abs/1708.02002) | ICCV 2017 |
 ---
+## 🔧 技术栈
+| 组件 | 库 | 版本 |
+|------|-----|------|
+| Web UI | Gradio | ≥4.0.0 |
+| 数据处理 | Pandas, NumPy | ≥2.0.0, ≥1.24.0 |
+| 机器学习 | scikit-learn | ≥1.3.0 |
+| 深度学习 | PyTorch | ≥2.0.0 |
+| 可视化 | Matplotlib, Seaborn | ≥3.7.0, ≥0.12.0 |
+| 生存分析 | lifelines | ≥0.28.0 |
+| 模型持久化 | joblib | ≥1.3.0 |
+| 模型托管 | huggingface-hub | ≥0.23.0 |
+---
+## 📄 许可证
+MIT License
+**作者**: [Stephanwu](https://huggingface.co/Stephanwu)