Sumail
/

sn85

Model card Files Files and versions

xet

Community

Sumail commited on Mar 17

Commit

4464278

verified ·

1 Parent(s): bbb3078

Upload Report_StreamDiffVSR_4k.md with huggingface_hub

Browse files

Files changed (1) hide show

Report_StreamDiffVSR_4k.md +182 -0

Report_StreamDiffVSR_4k.md ADDED Viewed

	@@ -0,0 +1,182 @@

+# Stream-DiffVSR 4K 视频超分辨率实验报告
+## 一、实验概述
+| 项目 | 内容 |
+|------|------|
+| **实验日期** | 2026-03-17 |
+| **实验模型** | Stream-DiffVSR (Jamichsu/Stream-DiffVSR) |
+| **输入分辨率** | 960×540 (540p) |
+| **目标分辨率** | 3840×2160 (4K UHD) |
+| **放大倍数** | 4×4 = 16倍像素 |
+| **推理步数** | 4步 (快速模式) |
+---
+## 二、实验环境
+### 硬件配置
+| 组件 | 规格 |
+|------|------|
+| GPU | NVIDIA RTX A6000 |
+| 显存 | 48 GB |
+| CUDA版本 | 12.4 |
+### 软件环境
+| 组件 | 版本 |
+|------|------|
+| PyTorch | 2.5.1+cu124 |
+| Diffusers | 0.32.2 |
+| Transformers | 4.50.3 |
+| MMCV | 2.2.0 |
+| Python | 3.11 |
+---
+## 三、输入视频参数
+| 参数 | 数值 |
+|------|------|
+| 文件路径 | `/workspace/new_video_test/7a_downscaled_540p.mp4` |
+| 分辨率 | 960 × 540 |
+| 像素数 | 518,400 像素/帧 (0.52 MP) |
+| 帧率 | 30 fps |
+| 总帧数 | 299 帧 |
+| 时长 | 9.97 秒 |
+| 文件大小 | 3.51 MB |
+---
+## 四、输出视频参数
+| 参数 | 数值 |
+|------|------|
+| 文件路径 | `/workspace/new_video_test/output_video/7a_upscaled_4K.mp4` |
+| **分辨率** | **3840 × 2160** ✓ |
+| 像素数 | 8,294,400 像素/帧 (8.29 MP) |
+| 帧率 | 30 fps |
+| **总帧数** | **299 帧** ✓ |
+| 时长 | 9.97 秒 |
+| 文件大小 | 65.51 MB |
+---
+## 五、验证结果
+### 5.1 分辨率验证 ✓
+- **期望输出**: 3840×2160 (标准4K UHD)
+- **实际输出**: 3840×2160
+- **结论**: ✓ 完美匹配，无偏差
+### 5.2 帧数验证 ✓
+- **输入帧数**: 299 帧
+- **输出帧数**: 299 帧
+- **结论**: ✓ 帧数完全一致，无丢帧、无重复
+### 5.3 放大倍数验证 ✓
+- 宽度放大: 960 → 3840 = **4.0×**
+- 高度放大: 540 → 2160 = **4.0×**
+- 面积放大: 0.52 MP → 8.29 MP = **16×**
+---
+## 六、关键技术参数
+### 6.1 显存优化策略
+由于 4K 光流计算需要 62GB+ 显存，本实验采用以下优化：
+| 优化项 | 设置 | 效果 |
+|--------|------|------|
+| of_rescale_factor | 4 | 光流计算在 1/4 分辨率下进行 |
+| Batch Size | 32帧 | 分批处理，降低峰值显存 |
+| xformers | 启用 | 内存高效注意力机制 |
+### 6.2 处理流程
+```
+视频输入 (960×540)
+    ↓
+帧提取 (299帧 PNG)
+    ↓
+分批超分辨率推理 (每批32帧)
+    - 光流计算: 240×135 (1/4 分辨率)
+    - 扩散推理: 3840×2160 (完整4K)
+    ↓
+帧合成 (299帧 4K PNG)
+    ↓
+视频输出 (3840×2160 30fps MP4)
+```
+---
+## 七、质量评估
+### 7.1 视觉对比
+选取第 5 秒帧进行对比：
+| 版本 | 分辨率 | 文件大小 | 细节表现 |
+|------|--------|----------|----------|
+| 输入 (540p) | 960×540 | 470 KB | 模糊，锯齿明显 |
+| 输出 (4K) | 3840×2160 | 4,787 KB | **清晰，边缘锐利，细节丰富** |
+### 7.2 画质改善点
+1. **边缘锐化**: 金属结构边缘从模糊变为清晰
+2. **纹理重建**: 衣物纹理、火花颗粒感明显提升
+3. **降噪效果**: 压缩伪影得到有效抑制
+4. **时序一致性**: 视频播放流畅，无闪烁
+---
+## 八、性能统计
+| 指标 | 数值 |
+|------|------|
+| 处理时间 | ~25分钟 (含模型加载) |
+| 平均每帧处理时间 | ~5秒 |
+| GPU利用率 | 峰值 90%+ |
+| 显存峰值 | ~40GB |
+---
+## 九、结论
+### 9.1 主要成果 ✓
+1. **成功将 540p 视频超分辨率至 4K UHD**
+2. **帧数保持 299 帧，无丢帧**
+3. **在 48GB 显存限制下完成 4K 推理**
+### 9.2 技术优势
+- 基于扩散模型的生成式超分辨率
+- 时序一致性保持（光流引导）
+- 仅需 4 步推理即可达到较好效果
+### 9.3 适用场景
+- 老视频修复与增强
+- 低分辨率素材升频至 4K 播放
+- 影视后期制作辅助
+---
+## 十、文件清单
+```
+/workspace/new_video_test/
+├── 7a_downscaled_540p.mp4          # 输入视频 (3.5MB)
+├── frames_input/                    # 提取的 540p 帧
+├── frames_output/                   # 生成的 4K 帧
+├── output_video/
+│   └── 7a_upscaled_4K.mp4          # 输出视频 (65.5MB) ⭐
+└── comparison_frames/               # 对比截图
+    ├── frame_1s_input_540p.png
+    ├── frame_1s_output_4K.png
+    ├── frame_3s_input_540p.png
+    ├── frame_3s_output_4K.png
+    ├── frame_5s_input_540p.png
+    ├── frame_5s_output_4K.png
+    ├── frame_7s_input_540p.png
+    └── frame_7s_output_4K.png
+```
+---
+**报告生成时间**: 2026-03-17
+**实验负责人**: AI Assistant (Claude)