Spaces:

zhehuo
/

MiniCPM-V-4.6

Running

App Files Files Community

zhehuo commited on 4 days ago

Commit

188a71d

verified ·

1 Parent(s): feedb0c

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -16

app.py CHANGED Viewed

@@ -21,13 +21,12 @@ model = AutoModel.from_pretrained(
 tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
 print("模型加载完成！")
-# 3. 推理函数 (核心修复点：适配新版本输入格式)
 def analyze_image(image, prompt_text):
     if image is None:
         return "请上传一张图片。"
-    # --- 关键修复：构建符合 MiniCPM-V 4.6 要求的输入格式 ---
-    # 模型期望的是一个包含字典的列表，而不是直接的 (image, text) 元组
     msgs = [
         {
             'role': 'user',
@@ -38,8 +37,7 @@ def analyze_image(image, prompt_text):
         }
     ]
-    # --- 关键修复：处理 CPU 上的数据类型 ---
-    # 将输入张量强制转为 float32，因为 CPU 通常不支持 bfloat16 计算
     with torch.no_grad():
         # 1. 构建输入
         inputs = tokenizer.apply_chat_template(
@@ -49,8 +47,7 @@ def analyze_image(image, prompt_text):
             return_tensors="pt"
         )
-        # 2. 移动到设备并转换数据类型
-        # 注意：CPU 不支持 bfloat16，如果模型权重是 bfloat16，这里可能会出错，强制转为 float32 更稳妥
         inputs = inputs.to(model.device, dtype=torch.float32)
         # 3. 生成回复
@@ -61,18 +58,17 @@ def analyze_image(image, prompt_text):
             do_sample=True
         )
-    # --- 解码输出 ---
-    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    # 尝试提取 Assistant 的回答部分
-    # 如果输出格式变化，这里可能需要微调
     if 'assistant' in response:
         response = response.split('assistant')[-1].strip()
     return response
-# 4. 构建界面
-with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("## 🖼️ MiniCPM-V 4.6 视觉理解 (CPU 优化版)")
     gr.Markdown("上传图片并输入问题，AI 将为你解答。")
@@ -86,11 +82,11 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
     btn.click(fn=analyze_image, inputs=[img_input, txt_input], outputs=output)
-# 5. 启动 (禁用 SSR 避免潜在的异步报错)
 if __name__ == "__main__":
     demo.launch(
         server_name="0.0.0.0",
         server_port=7860,
-        show_api=False, # 隐藏 API 文档以提升 CPU 性能
-        ssr_mode=False # 关键：禁用服务端渲染，解决 ValueError: Invalid file descriptor: -1
     )

 tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
 print("模型加载完成！")
+# 3. 推理函数
 def analyze_image(image, prompt_text):
     if image is None:
         return "请上传一张图片。"
+    # 构建符合 MiniCPM-V 4.6 要求的输入格式
     msgs = [
         {
             'role': 'user',
         }
     ]
+    # CPU 上的数据类型处理
     with torch.no_grad():
         # 1. 构建输入
         inputs = tokenizer.apply_chat_template(
             return_tensors="pt"
         )
+        # 2. 移动到设备并转换数据类型 (CPU 强制 float32)
         inputs = inputs.to(model.device, dtype=torch.float32)
         # 3. 生成回复
             do_sample=True
         )
+    # 解码输出
+    response = tokenizer.decode(outputs, skip_special_tokens=True)
+    # 提取 Assistant 的回答部分
     if 'assistant' in response:
         response = response.split('assistant')[-1].strip()
     return response
+# 4. 构建界面 (注意：这里去掉了 theme 参数)
+with gr.Blocks() as demo:
     gr.Markdown("## 🖼️ MiniCPM-V 4.6 视觉理解 (CPU 优化版)")
     gr.Markdown("上传图片并输入问题，AI 将为你解答。")
     btn.click(fn=analyze_image, inputs=[img_input, txt_input], outputs=output)
+# 5. 启动 (theme 移到这里，并删除了 show_api)
 if __name__ == "__main__":
     demo.launch(
         server_name="0.0.0.0",
         server_port=7860,
+        ssr_mode=False,      # 禁用服务端渲染，避免异步报错
+        theme=gr.themes.Soft() # Gradio 6.0 要求 theme 必须放在 launch 里
     )