Sumail commited on
Commit
4464278
·
verified ·
1 Parent(s): bbb3078

Upload Report_StreamDiffVSR_4k.md with huggingface_hub

Browse files
Files changed (1) hide show
  1. Report_StreamDiffVSR_4k.md +182 -0
Report_StreamDiffVSR_4k.md ADDED
@@ -0,0 +1,182 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # Stream-DiffVSR 4K 视频超分辨率实验报告
2
+
3
+ ## 一、实验概述
4
+
5
+ | 项目 | 内容 |
6
+ |------|------|
7
+ | **实验日期** | 2026-03-17 |
8
+ | **实验模型** | Stream-DiffVSR (Jamichsu/Stream-DiffVSR) |
9
+ | **输入分辨率** | 960×540 (540p) |
10
+ | **目标分辨率** | 3840×2160 (4K UHD) |
11
+ | **放大倍数** | 4×4 = 16倍像素 |
12
+ | **推理步数** | 4步 (快速模式) |
13
+
14
+ ---
15
+
16
+ ## 二、实验环境
17
+
18
+ ### 硬件配置
19
+ | 组件 | 规格 |
20
+ |------|------|
21
+ | GPU | NVIDIA RTX A6000 |
22
+ | 显存 | 48 GB |
23
+ | CUDA版本 | 12.4 |
24
+
25
+ ### 软件环境
26
+ | 组件 | 版本 |
27
+ |------|------|
28
+ | PyTorch | 2.5.1+cu124 |
29
+ | Diffusers | 0.32.2 |
30
+ | Transformers | 4.50.3 |
31
+ | MMCV | 2.2.0 |
32
+ | Python | 3.11 |
33
+
34
+ ---
35
+
36
+ ## 三、输入视频参数
37
+
38
+ | 参数 | 数值 |
39
+ |------|------|
40
+ | 文件路径 | `/workspace/new_video_test/7a_downscaled_540p.mp4` |
41
+ | 分辨率 | 960 × 540 |
42
+ | 像素数 | 518,400 像素/帧 (0.52 MP) |
43
+ | 帧率 | 30 fps |
44
+ | 总帧数 | 299 帧 |
45
+ | 时长 | 9.97 秒 |
46
+ | 文件大小 | 3.51 MB |
47
+
48
+ ---
49
+
50
+ ## 四、输出视频参数
51
+
52
+ | 参数 | 数值 |
53
+ |------|------|
54
+ | 文件路径 | `/workspace/new_video_test/output_video/7a_upscaled_4K.mp4` |
55
+ | **分辨率** | **3840 × 2160** ✓ |
56
+ | 像素数 | 8,294,400 像素/帧 (8.29 MP) |
57
+ | 帧率 | 30 fps |
58
+ | **总帧数** | **299 帧** ✓ |
59
+ | 时长 | 9.97 秒 |
60
+ | 文件大小 | 65.51 MB |
61
+
62
+ ---
63
+
64
+ ## 五、验证结果
65
+
66
+ ### 5.1 分辨率验证 ✓
67
+ - **期望输出**: 3840×2160 (标准4K UHD)
68
+ - **实际输出**: 3840×2160
69
+ - **结论**: ✓ 完美匹配,无偏差
70
+
71
+ ### 5.2 帧数验证 ✓
72
+ - **输入帧数**: 299 帧
73
+ - **输出帧数**: 299 帧
74
+ - **结论**: ✓ 帧数完全一致,无丢帧、无重复
75
+
76
+ ### 5.3 放大倍数验证 ✓
77
+ - 宽度放大: 960 → 3840 = **4.0×**
78
+ - 高度放大: 540 → 2160 = **4.0×**
79
+ - 面积放大: 0.52 MP → 8.29 MP = **16×**
80
+
81
+ ---
82
+
83
+ ## 六、关键技术参数
84
+
85
+ ### 6.1 显存优化策略
86
+ 由于 4K 光流计算需要 62GB+ 显存,本实验采用以下优化:
87
+
88
+ | 优化项 | 设置 | 效果 |
89
+ |--------|------|------|
90
+ | of_rescale_factor | 4 | 光流计算在 1/4 分辨率下进行 |
91
+ | Batch Size | 32帧 | 分批处理,降低峰值显存 |
92
+ | xformers | 启用 | 内存高效注意力机制 |
93
+
94
+ ### 6.2 处理流程
95
+ ```
96
+ 视频输入 (960×540)
97
+
98
+ 帧提取 (299帧 PNG)
99
+
100
+ 分批超分辨率推理 (每批32帧)
101
+ - 光流计算: 240×135 (1/4 分辨率)
102
+ - 扩散推理: 3840×2160 (完整4K)
103
+
104
+ 帧合成 (299帧 4K PNG)
105
+
106
+ 视频输出 (3840×2160 30fps MP4)
107
+ ```
108
+
109
+ ---
110
+
111
+ ## 七、质量评估
112
+
113
+ ### 7.1 视觉对比
114
+ 选取第 5 秒帧进行对比:
115
+
116
+ | 版本 | 分辨率 | 文件大小 | 细节表现 |
117
+ |------|--------|----------|----------|
118
+ | 输入 (540p) | 960×540 | 470 KB | 模糊,锯齿明显 |
119
+ | 输出 (4K) | 3840×2160 | 4,787 KB | **清晰,边缘锐利,细节丰富** |
120
+
121
+ ### 7.2 画质改善点
122
+ 1. **边缘锐化**: 金属结构边缘从模糊变为清晰
123
+ 2. **纹理重建**: 衣物纹理、火花颗粒感明显提升
124
+ 3. **降噪效果**: 压缩伪影得到有效抑制
125
+ 4. **时序一致性**: 视频播放流畅,无闪烁
126
+
127
+ ---
128
+
129
+ ## 八、性能统计
130
+
131
+ | 指标 | 数值 |
132
+ |------|------|
133
+ | 处理时间 | ~25分钟 (含模型加载) |
134
+ | 平均每帧处理时间 | ~5秒 |
135
+ | GPU利用率 | 峰值 90%+ |
136
+ | 显存峰值 | ~40GB |
137
+
138
+ ---
139
+
140
+ ## 九、结论
141
+
142
+ ### 9.1 主要成果 ✓
143
+ 1. **成功将 540p 视频超分辨率至 4K UHD**
144
+ 2. **帧数保持 299 帧,无丢帧**
145
+ 3. **在 48GB 显存限制下完成 4K 推理**
146
+
147
+ ### 9.2 技术优势
148
+ - 基于扩散模型的生成式超分辨率
149
+ - 时序一致性保持(光流引导)
150
+ - 仅需 4 步推理即可达到较好效果
151
+
152
+ ### 9.3 适用场景
153
+ - 老视频修复与增强
154
+ - 低分辨率素材升频至 4K 播放
155
+ - 影视后期制作辅助
156
+
157
+ ---
158
+
159
+ ## 十、文件清单
160
+
161
+ ```
162
+ /workspace/new_video_test/
163
+ ├── 7a_downscaled_540p.mp4 # 输入视频 (3.5MB)
164
+ ├── frames_input/ # 提取的 540p 帧
165
+ ├── frames_output/ # 生成的 4K 帧
166
+ ├── output_video/
167
+ │ └── 7a_upscaled_4K.mp4 # 输出视频 (65.5MB) ⭐
168
+ └── comparison_frames/ # 对比截图
169
+ ├── frame_1s_input_540p.png
170
+ ├── frame_1s_output_4K.png
171
+ ├── frame_3s_input_540p.png
172
+ ├── frame_3s_output_4K.png
173
+ ├── frame_5s_input_540p.png
174
+ ├── frame_5s_output_4K.png
175
+ ├── frame_7s_input_540p.png
176
+ └── frame_7s_output_4K.png
177
+ ```
178
+
179
+ ---
180
+
181
+ **报告生成时间**: 2026-03-17
182
+ **实验负责人**: AI Assistant (Claude)