decula
/

sd

+import os, sys, torch, gc, subprocess
+import gradio as gr
+from datetime import datetime
+from pynvml import *
+from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
+from peft import PeftModel
+from kaggle_secrets import UserSecretsClient
+from huggingface_hub import login
+# --- 1. 配置与认证 ---
+model_id = "Qwen/Qwen3.5-9B"
+lora_repo = "decula/sd"
+port = 7860
+use_frpc = True
+frpconfigfile = "7680.ini" # 确保该文件已上传至 Kaggle 工作目录
+try:
+    user_secrets = UserSecretsClient()
+    hf_token = user_secrets.get_secret("DE_HF")
+    if hf_token: login(token=hf_token)
+except:
+    print("HF Token 获取失败，将尝试公开访问")
+# --- 2. 显存监控初始化 ---
+try:
+    nvmlInit()
+    GPU_COUNT = nvmlDeviceGetCount()
+    gpu_h0 = nvmlDeviceGetHandleByIndex(0)
+    gpu_h1 = nvmlDeviceGetHandleByIndex(1) if GPU_COUNT > 1 else None
+except Exception as e:
+    print(f"NVML 初始化失败: {e}")
+    GPU_COUNT = 0
+# --- 3. 加载模型 (保持测试成功的逻辑) ---
+print(f"正在双卡部署模型: {model_id}...")
+bnb_config = BitsAndBytesConfig(
+    load_in_4bit=True,
+    bnb_4bit_use_double_quant=True,
+    bnb_4bit_quant_type="nf4",
+    bnb_4bit_compute_dtype=torch.float16,
+)
+# 限制每张卡 11GB，留出 4GB 给 KV Cache 和 Gradio 进程
+max_memory = {0: "11GiB", 1: "11GiB", "cpu": "20GiB"}
+base_model = AutoModelForCausalLM.from_pretrained(
+    model_id,
+    quantization_config=bnb_config,
+    device_map="auto",
+    max_memory=max_memory,
+    trust_remote_code=True,
+    torch_dtype=torch.float16,
+    low_cpu_mem_usage=True
+)
+try:
+    model = PeftModel.from_pretrained(base_model, lora_repo)
+    model.eval()
+    print("✅ 适配器加载成功")
+except Exception as e:
+    print(f"❌ 适配器加载失败: {e}")
+    model = base_model
+tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
+tokenizer.pad_token = tokenizer.eos_token
+# --- 4. frpc 启动函数 ---
+def start_frpc(port, config_file, enabled):
+    if enabled:
+        if os.path.exists('./frpc'):
+            subprocess.run(['chmod', '+x', './frpc'], check=True)
+            print(f'正在启动 frpc 映射端口 {port}...')
+            subprocess.Popen(['./frpc', '-c', config_file])
+        else:
+            print("错误：当前目录下未找到 frpc 可执行文件")
+start_frpc(port, frpconfigfile, use_frpc)
+# --- 5. 推理评估逻辑 ---
+def evaluate(
+    prompt,
+    max_tokens=512,
+    temperature=0.7,
+    top_p=0.8,
+    repetition_penalty=1.1
+):
+    # 构建对话模板
+    messages = [{"role": "user", "content": prompt}]
+    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+    inputs = tokenizer(text, return_tensors="pt").to(model.device)
+    with torch.no_grad():
+        # 流式生成的简化模拟（Transformers 直接生成，此处 yield 最终结果）
+        output_ids = model.generate(
+            **inputs,
+            max_new_tokens=int(max_tokens),
+            do_sample=True,
+            temperature=float(temperature),
+            top_p=float(top_p),
+            repetition_penalty=float(repetition_penalty),
+            pad_token_id=tokenizer.pad_token_id,
+            eos_token_id=tokenizer.eos_token_id
+        )
+    response = tokenizer.decode(output_ids[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
+    # 打印显存状态
+    if GPU_COUNT > 0:
+        info0 = nvmlDeviceGetMemoryInfo(gpu_h0)
+        print(f"GPU0: {info0.used/1024**2:.0f}MB / GPU1: {nvmlDeviceGetMemoryInfo(gpu_h1).used/1024**2:.0f}MB" if gpu_h1 else f"GPU0: {info0.used/1024**2:.0f}MB")
+    return response
+# --- 6. Gradio 界面设计 ---
+with gr.Blocks(title="Qwen3.5-9B Dual-GPU GUI") as demo:
+    gr.HTML("<div style='text-align: center;'><h1>Qwen 3.5 9B + LoRA (Dual T4)</h1></div>")
+    with gr.Row():
+        with gr.Column():
+            input_text = gr.Textbox(lines=4, label="输入问题", placeholder="请输入您想咨询的内容...")
+            with gr.Row():
+                btn_submit = gr.Button("发送请求", variant="primary")
+                btn_clear = gr.Button("重置")
+            with gr.Accordion("生成参数配置", open=False):
+                tk_count = gr.Slider(128, 2048, label="最大生成长度", step=128, value=512)
+                temp = gr.Slider(0.1, 1.5, label="温度 (Temperature)", step=0.1, value=0.7)
+                tp = gr.Slider(0.1, 1.0, label="Top P", step=0.05, value=0.8)
+                rep_p = gr.Slider(1.0, 1.5, label="重复惩罚", step=0.05, value=1.1)
+        with gr.Column():
+            output_text = gr.Textbox(lines=12, label="AI 回复", interactive=False)
+    # 绑定事件
+    btn_submit.click(
+        evaluate,
+        inputs=[input_text, tk_count, temp, tp, rep_p],
+        outputs=[output_text]
+    )
+    btn_clear.click(lambda: ("", ""), outputs=[input_text, output_text])
+# --- 7. 启动 ---
+if __name__ == "__main__":
+    # share=False 因为我们要用自己的 frpc 进行穿透
+    demo.launch(server_port=port, share=False)