Spaces:

script52
/

deneme

Build error

App Files Files Community

deneme / app.py

script52

Update app.py

11b54c5 verified 26 days ago

raw

history blame contribute delete

5.59 kB

	import os
	import gradio as gr
	from huggingface_hub import hf_hub_download
	from llama_cpp import Llama

	MODEL_REPO = "Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF"

	# Önce daha pratik quant dosyalarını dene
	MODEL_CANDIDATES = [
	"Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-Q4_K_M.gguf",
	"Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-Q4_K_S.gguf",
	"Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-Q3_K_M.gguf",
	"Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-Q2_K.gguf",
	]

	llm = None
	loaded_model_file = None


	def download_first_available_model(token: str \| None):
	last_error = None

	for filename in MODEL_CANDIDATES:
	try:
	model_path = hf_hub_download(
	repo_id=MODEL_REPO,
	filename=filename,
	token=token,
	)
	return model_path, filename
	except Exception as e:
	last_error = e

	raise RuntimeError(
	"Uygun GGUF dosyası indirilemedi. "
	f"Denenen dosyalar: {', '.join(MODEL_CANDIDATES)}. "
	f"Son hata: {last_error}"
	)


	def build_model(model_path: str):
	cpu_count = os.cpu_count() or 2

	# CPU Space için daha temkinli ayarlar
	n_threads = max(1, min(8, cpu_count))

	return Llama(
	model_path=model_path,
	n_ctx=4096,
	n_threads=n_threads,
	n_batch=128,
	n_gpu_layers=0,
	verbose=False,
	)


	def get_model(hf_token: gr.OAuthToken \| None):
	global llm, loaded_model_file

	if llm is not None:
	return llm

	token = hf_token.token if hf_token is not None else None

	model_path, filename = download_first_available_model(token)
	llm = build_model(model_path)
	loaded_model_file = filename
	return llm


	def normalize_history(history):
	messages = []

	for item in history or []:
	if isinstance(item, dict):
	role = item.get("role")
	content = item.get("content", "")
	if role in ("user", "assistant", "system"):
	messages.append({"role": role, "content": str(content)})
	elif isinstance(item, (list, tuple)) and len(item) == 2:
	user_msg, assistant_msg = item
	if user_msg:
	messages.append({"role": "user", "content": str(user_msg)})
	if assistant_msg:
	messages.append({"role": "assistant", "content": str(assistant_msg)})

	return messages


	def respond(
	message,
	history,
	system_message,
	max_tokens,
	temperature,
	top_p,
	hf_token: gr.OAuthToken \| None,
	):
	global loaded_model_file

	try:
	model = get_model(hf_token)
	except Exception as e:
	yield (
	"Model yüklenemedi.\n\n"
	f"Hata: {e}\n\n"
	"Olası nedenler:\n"
	"- Space RAM kapasitesi yetersiz\n"
	"- GGUF dosya adı değişmiş\n"
	"- Model erişimi için yetkili Hugging Face hesabı gerekiyor\n"
	"- llama-cpp-python bu ortamda düzgün kurulmadı"
	)
	return

	messages = [{"role": "system", "content": str(system_message)}]
	messages.extend(normalize_history(history))
	messages.append({"role": "user", "content": str(message)})

	response = ""
	header = f"[Model: {loaded_model_file}]\n\n"

	try:
	stream = model.create_chat_completion(
	messages=messages,
	max_tokens=int(max_tokens),
	temperature=float(temperature),
	top_p=float(top_p),
	stream=True,
	)

	first_token = True
	for chunk in stream:
	token = ""
	choices = chunk.get("choices", [])
	if choices:
	delta = choices[0].get("delta", {})
	token = delta.get("content", "") or ""

	if token:
	response += token
	if first_token:
	yield header + response
	first_token = False
	else:
	yield header + response

	if not response:
	yield header + "(Model yanıt üretmedi.)"

	except Exception as e:
	partial = header + response if response else header
	yield (
	partial
	+ "\n\nÜretim sırasında hata oluştu.\n"
	f"Hata: {e}\n\n"
	"Daha düşük max_tokens veya daha küçük quant dosyası deneyebilirsin."
	)


	with gr.Blocks() as demo:
	gr.Markdown("# GGUF Chat Demo (Fallback)")

	with gr.Sidebar():
	gr.LoginButton()
	gr.Markdown(
	"Model private veya gated ise giriş yapman gerekebilir. "
	"Uygun GGUF dosyası otomatik seçilmeye çalışılır."
	)

	chatbot = gr.ChatInterface(
	fn=respond,
	additional_inputs=[
	gr.Textbox(
	value="You are a friendly Chatbot.",
	label="System message",
	),
	gr.Slider(
	minimum=1,
	maximum=1024,
	value=256,
	step=1,
	label="Max new tokens",
	),
	gr.Slider(
	minimum=0.1,
	maximum=1.5,
	value=0.7,
	step=0.1,
	label="Temperature",
	),
	gr.Slider(
	minimum=0.1,
	maximum=1.0,
	value=0.9,
	step=0.05,
	label="Top-p",
	),
	],
	)
	chatbot.render()

	if __name__ == "__main__":
	demo.launch()