NeuroScan AI 性能基准测试
🔬 性能基准测试报告
测试时间: 2026-01-28 17:16:29
测试环境
| 组件 |
配置 |
| CPU |
Intel(R) Xeon(R) Platinum 8350C CPU @ 2.60GHz |
| CPU核心 |
64 物理核 / 128 逻辑核 |
| 内存 |
2014 GB |
| GPU |
NVIDIA A800-SXM4-80GB |
| GPU显存 |
80 GB |
| Python |
3.11.11 |
| PyTorch |
2.8.0+cu129 |
| CUDA |
12.9 |
| MONAI |
1.5.2 |
| SimpleITK |
2.4.1 |
测试数据
| 属性 |
值 |
| 数据集 |
Learn2Reg Lung CT |
| 样本数量 |
20 对 (吸气/呼气配对) |
| 输入尺寸 |
192 × 192 × 208 体素 |
| 体素间距 |
1.0 × 1.0 × 1.0 mm |
| 数据类型 |
float32 |
| 单卷大小 |
58.5 MB |
| 单卷体素数 |
7,667,712 |
CPU 并发基准测试
测试任务: 配准 + 变化检测流程
- 数据加载: NIfTI 格式加载
- 刚性配准: 6DOF 仿射变换 (SimpleITK)
- 非刚性配准: B-spline 形变场 (SimpleITK)
- 变化检测: 体素级差异计算
测试结果
| 并发数 |
总耗时 |
吞吐量 |
CPU峰值 |
CPU均值 |
内存峰值 |
内存增量 |
并行效率 |
| 1 |
7.38s |
8.1/min |
10.3% |
1.9% |
39.1 GB |
+1.0 GB |
100% |
| 2 |
7.68s |
15.6/min |
38.8% |
5.4% |
40.0 GB |
+2.0 GB |
192% |
| 3 |
8.44s |
21.3/min |
39.2% |
7.4% |
40.8 GB |
+3.0 GB |
262% |
| 4 |
9.07s |
26.5/min |
42.6% |
9.5% |
41.8 GB |
+4.0 GB |
325% |
| 5 |
9.60s |
31.2/min |
42.0% |
11.3% |
42.5 GB |
+5.0 GB |
384% |
单任务耗时分解
| 阶段 |
耗时 |
占比 |
说明 |
| 数据加载 |
0.08s |
1% |
NIfTI 读取 + 预处理 |
| 刚性配准 |
1.10s |
15% |
6DOF 仿射变换优化 |
| 非刚性配准 |
6.20s |
84% |
B-spline 形变场优化 |
| 变化检测 |
0.02s |
<1% |
NumPy 差异计算 |
| 总计 |
7.40s |
100% |
- |
CPU 利用率分析
并发数: 1 ▓░░░░░░░░░░░░░░░░░░░ 10.3%
并发数: 2 ▓▓▓▓▓▓▓░░░░░░░░░░░░░ 38.8%
并发数: 3 ▓▓▓▓▓▓▓░░░░░░░░░░░░░ 39.2%
并发数: 4 ▓▓▓▓▓▓▓▓░░░░░░░░░░░░ 42.6%
并发数: 5 ▓▓▓▓▓▓▓▓░░░░░░░░░░░░ 42.0%
📊 结论: CPU 利用率在 5 并发时仅达到 42%,说明还有很大的并发扩展空间。
GPU 并发基准测试
测试任务: MONAI 器官分割
- 模型: TotalSegmentator (104 类器官)
- 推理方式: Sliding Window (滑动窗口)
- 窗口大小: 96 × 96 × 96
- 重叠率: 50%
测试结果
| 并发数 |
总耗时 |
GPU显存峰值 |
GPU利用率峰值 |
CPU峰值 |
内存峰值 |
| 1 |
8.19s |
9.0 GB |
100% |
37.5% |
42.1 GB |
| 2 |
8.50s |
15.0 GB |
100% |
5.8% |
43.2 GB |
单任务耗时分解
| 阶段 |
耗时 |
占比 |
说明 |
| 数据加载 |
0.11s |
1% |
NIfTI → Tensor |
| 模型推理 |
8.08s |
99% |
Sliding Window |
| 总计 |
8.19s |
100% |
- |
| GPU显存 |
7.32 GB |
- |
PyTorch allocated |
| GPU显存 (系统) |
9.0 GB |
- |
nvidia-smi 报告 |
GPU 显存分析
单任务: ▓▓▓▓▓▓▓▓▓░░░░░░░░░░░░░░░░░░░░░░░ 9.0 GB / 80 GB (11%)
双任务: ▓▓▓▓▓▓▓▓▓▓▓▓▓▓▓░░░░░░░░░░░░░░░░░ 15.0 GB / 80 GB (19%)
📊 结论: 单任务分割需要约 9 GB GPU显存,双任务需要约 15 GB。RTX 3060 (12GB) 可运行单任务,RTX 4090 (24GB) 可运行 2 并发。
资源需求总结
最小配置估算
基于测试数据,各场景的最小资源需求:
| 场景 |
CPU |
内存 |
GPU显存 |
备注 |
| 仅配准 (单任务) |
2 核 |
2 GB |
无需 |
CPU密集型 |
| 仅配准 (5并发) |
8 核 |
6 GB |
无需 |
线性扩展 |
| 分割 (单任务) |
4 核 |
4 GB |
9 GB |
GPU密集型 |
| 分割 (双任务) |
4 核 |
6 GB |
15 GB |
显存瓶颈 |
| 完整流程 |
8 核 |
8 GB |
12 GB |
配准+分割+LLM |
推荐配置方案
| 部署场景 |
CPU |
内存 |
GPU |
预估并发能力 |
参考月费 |
| 最低配置 |
4核 |
8 GB |
无 |
1 任务 (仅配准) |
~¥100 |
| 推荐配置 |
8核 |
16 GB |
RTX 3060 12GB |
2-3 任务 |
~¥800 |
| 专业配置 |
16核 |
32 GB |
RTX 4090 24GB |
5+ 任务 |
~¥2000 |
| 服务器配置 |
32核+ |
64 GB+ |
A100 40GB+ |
10+ 任务 |
~¥8000 |
运行基准测试
python scripts/benchmark.py
python scripts/stress_test.py
附录: 测试脚本
scripts/benchmark.py - 完整基准测试,生成详细报告
scripts/stress_test.py - 快速压力测试,显示资源峰值
报告生成时间: 2026-01-28 17:16:29