Upload folder using huggingface_hub

cd16f07 verified 11 days ago

33.1 kB

	"""Rubi-RLM: 1B-class Recursive Language Model (RLM) prototype.

	Bu dosya, recursive dÃ¼ÅŸÃ¼nme + dual-loop Ã¶ÄŸrenme hedefiyle tasarlanmÄ±ÅŸ bir
	araÅŸtÄ±rma prototipi iÃ§erir.

	Eklenen sohbet katmanÄ±:
	- Ä°ngilizce/TÃ¼rkÃ§e Ã§ift dilli chat ÅŸablonu
	- HF tokenizer ile metin->id / id->metin kÃ¶prÃ¼sÃ¼
	- Tek mesaj veya interaktif chat CLI
	"""

	from __future__ import annotations

	import argparse
	import importlib
	import importlib.util
	from dataclasses import dataclass
	from typing import List, Optional, Protocol, Sequence, Tuple

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from rubi_train_stack import (
	TrainStackConfig,
	build_dataloader,
	build_dataset,
	build_optimizer,
	train_demo_steps,
	)
	from xqs_moe import build_deepspeed_moe
	from xqs_stack import choose_moe_backend, detect_xqs_backends, format_backend_report
	from x_quantum_sparse_ops import (
	build_linear,
	causal_scaled_dot_product_attention,
	fused_residual_add,
	maybe_compile_module,
	pack_rows,
	scatter_rows,
	)


	class TextTokenizer(Protocol):
	def encode(self, text: str, return_tensors: Optional[str] = None): ...

	def decode(self, token_ids: Sequence[int], skip_special_tokens: bool = True) -> str: ...


	@dataclass
	class ChatTurn:
	role: str
	content: str


	@dataclass
	class RLMConfig:
	vocab_size: int = 50_257
	max_seq_len: int = 2_048
	d_model: int = 2_048
	n_layers: int = 14
	n_heads: int = 16
	ff_mult: int = 4
	dropout: float = 0.1
	recurse_steps: int = 6
	critique_threshold: float = 0.20
	tie_embeddings: bool = True
	use_moe: bool = False
	moe_num_experts: int = 0
	moe_top_k: int = 2
	moe_expert_hidden: int = 0
	moe_router_jitter: float = 0.0
	moe_aux_loss_weight: float = 0.01
	use_layer_skip: bool = False
	layer_skip_threshold: float = 0.50
	layer_skip_target: float = 1.0
	layer_skip_aux_weight: float = 0.01
	use_ternary_weights: bool = False
	use_flash_attention: bool = False
	use_fused_ops: bool = False
	packed_execution: bool = False
	use_torch_compile: bool = False
	moe_backend: str = "auto"
	moe_ep_size: int = 1

	@classmethod
	def scale_1b(cls) -> "RLMConfig":
	return cls(
	vocab_size=50_257,
	max_seq_len=2_048,
	d_model=1_024,
	n_layers=10,
	n_heads=16,
	ff_mult=4,
	recurse_steps=6,
	critique_threshold=0.20,
	use_moe=True,
	moe_num_experts=32,
	moe_top_k=1,
	moe_expert_hidden=1_280,
	moe_router_jitter=0.01,
	moe_aux_loss_weight=0.01,
	use_layer_skip=True,
	layer_skip_threshold=0.80,
	layer_skip_target=0.03,
	layer_skip_aux_weight=0.01,
	use_ternary_weights=True,
	use_flash_attention=True,
	use_fused_ops=True,
	packed_execution=True,
	use_torch_compile=False,
	moe_backend="auto",
	moe_ep_size=1,
	)


	class RMSNorm(nn.Module):
	def __init__(self, d_model: int, eps: float = 1e-6):
	super().__init__()
	self.scale = nn.Parameter(torch.ones(d_model))
	self.eps = eps

	def forward(self, x: torch.Tensor) -> torch.Tensor:
	rms = x.pow(2).mean(dim=-1, keepdim=True).add(self.eps).sqrt()
	return self.scale * (x / rms)


	class DenseFeedForward(nn.Module):
	def __init__(self, cfg: RLMConfig):
	super().__init__()
	hidden = cfg.d_model * cfg.ff_mult
	self.up_proj = build_linear(cfg.d_model, hidden, ternary=cfg.use_ternary_weights)
	self.down_proj = build_linear(hidden, cfg.d_model, ternary=cfg.use_ternary_weights)
	self.dropout = nn.Dropout(cfg.dropout)

	def forward(self, x: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
	return self.dropout(self.down_proj(F.gelu(self.up_proj(x)))), x.new_zeros(())


	class FastSelfAttention(nn.Module):
	def __init__(self, cfg: RLMConfig):
	super().__init__()
	if cfg.d_model % cfg.n_heads != 0:
	raise ValueError("d_model must be divisible by n_heads.")
	self.n_heads = cfg.n_heads
	self.head_dim = cfg.d_model // cfg.n_heads
	self.dropout = cfg.dropout
	self.use_flash_attention = cfg.use_flash_attention
	self.q_proj = build_linear(cfg.d_model, cfg.d_model, bias=False, ternary=cfg.use_ternary_weights)
	self.k_proj = build_linear(cfg.d_model, cfg.d_model, bias=False, ternary=cfg.use_ternary_weights)
	self.v_proj = build_linear(cfg.d_model, cfg.d_model, bias=False, ternary=cfg.use_ternary_weights)
	self.out_proj = build_linear(cfg.d_model, cfg.d_model, bias=False, ternary=cfg.use_ternary_weights)

	def forward(self, x: torch.Tensor, attn_mask: Optional[torch.Tensor] = None) -> torch.Tensor:
	bsz, seq_len, _ = x.shape
	q = self.q_proj(x).view(bsz, seq_len, self.n_heads, self.head_dim).transpose(1, 2)
	k = self.k_proj(x).view(bsz, seq_len, self.n_heads, self.head_dim).transpose(1, 2)
	v = self.v_proj(x).view(bsz, seq_len, self.n_heads, self.head_dim).transpose(1, 2)
	attn_out = causal_scaled_dot_product_attention(
	q,
	k,
	v,
	dropout_p=self.dropout,
	training=self.training,
	)
	attn_out = attn_out.transpose(1, 2).contiguous().view(bsz, seq_len, self.n_heads * self.head_dim)
	return self.out_proj(attn_out)


	class MoEExpert(nn.Module):
	def __init__(self, d_model: int, hidden: int):
	super().__init__()
	self.up_proj = build_linear(d_model, hidden, ternary=True)
	self.down_proj = build_linear(hidden, d_model, ternary=True)

	def forward(self, x: torch.Tensor) -> torch.Tensor:
	return self.down_proj(F.gelu(self.up_proj(x)))


	class MoEFeedForward(nn.Module):
	def __init__(self, cfg: RLMConfig):
	super().__init__()
	if cfg.moe_num_experts <= 0:
	raise ValueError("moe_num_experts must be positive when use_moe=True.")
	if cfg.moe_top_k <= 0 or cfg.moe_top_k > cfg.moe_num_experts:
	raise ValueError("moe_top_k must be in the range [1, moe_num_experts].")

	self.num_experts = cfg.moe_num_experts
	self.top_k = cfg.moe_top_k
	self.router_jitter = cfg.moe_router_jitter
	requested_backend = cfg.moe_backend.lower()
	self.backend = choose_moe_backend(prefer_deepspeed=requested_backend in {"auto", "deepspeed"}) if requested_backend != "native" else "native"
	self.router = build_linear(cfg.d_model, cfg.moe_num_experts, ternary=cfg.use_ternary_weights)
	self.experts = nn.ModuleList([MoEExpert(cfg.d_model, cfg.moe_expert_hidden) for _ in range(cfg.moe_num_experts)])
	self.deepspeed_moe = None
	if self.backend == "deepspeed":
	self.deepspeed_moe = build_deepspeed_moe(
	hidden_size=cfg.d_model,
	expert=MoEExpert(cfg.d_model, cfg.moe_expert_hidden),
	num_experts=cfg.moe_num_experts,
	top_k=cfg.moe_top_k,
	ep_size=cfg.moe_ep_size,
	)
	if self.deepspeed_moe is None:
	self.backend = "native"
	self.dropout = nn.Dropout(cfg.dropout)

	def forward(self, x: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
	if self.deepspeed_moe is not None:
	out, aux_loss = self.deepspeed_moe(x)
	return self.dropout(out), aux_loss
	flat_x = x.reshape(-1, x.size(-1))
	router_logits = self.router(flat_x)
	if self.training and self.router_jitter > 0:
	router_logits = router_logits + torch.randn_like(router_logits) * self.router_jitter

	router_probs = F.softmax(router_logits, dim=-1)
	topk_weights, topk_indices = torch.topk(router_probs, self.top_k, dim=-1)
	topk_weights = topk_weights / topk_weights.sum(dim=-1, keepdim=True)

	mixed = flat_x.new_zeros(flat_x.shape)
	expert_load = router_probs.new_zeros(self.num_experts)

	for expert_id, expert in enumerate(self.experts):
	expert_mask = topk_indices == expert_id
	if not expert_mask.any():
	continue
	token_indices, slot_indices = expert_mask.nonzero(as_tuple=True)
	expert_inputs = flat_x.index_select(0, token_indices)
	expert_outputs = expert(expert_inputs)
	weights = topk_weights[token_indices, slot_indices].unsqueeze(-1)
	mixed.index_add_(0, token_indices, expert_outputs * weights)
	expert_load[expert_id] = float(token_indices.numel())

	mixed = self.dropout(mixed.view_as(x))
	importance = router_probs.mean(dim=0)
	load = expert_load / max(1, flat_x.size(0) * self.top_k)
	aux_loss = self.num_experts * torch.sum(importance * load)
	return mixed, aux_loss


	class RecursiveBlock(nn.Module):
	def __init__(self, cfg: RLMConfig):
	super().__init__()

	self.use_layer_skip = cfg.use_layer_skip
	self.layer_skip_threshold = cfg.layer_skip_threshold
	self.layer_skip_target = cfg.layer_skip_target
	self.use_fused_ops = cfg.use_fused_ops
	self.packed_execution = cfg.packed_execution
	self.norm_attn = RMSNorm(cfg.d_model)
	self.norm_ff = RMSNorm(cfg.d_model)
	self.attn = FastSelfAttention(cfg)
	self.ffn = MoEFeedForward(cfg) if cfg.use_moe else DenseFeedForward(cfg)
	self.skip_router = build_linear(cfg.d_model, 1, ternary=cfg.use_ternary_weights) if cfg.use_layer_skip else None

	self.state_fuse = build_linear(cfg.d_model * 2, cfg.d_model, ternary=cfg.use_ternary_weights)
	self.state_update = build_linear(cfg.d_model, cfg.d_model, ternary=cfg.use_ternary_weights)
	self.state_gate = build_linear(cfg.d_model * 2, cfg.d_model, ternary=cfg.use_ternary_weights)

	def _run_core(
	self,
	x: torch.Tensor,
	state: torch.Tensor,
	attn_mask: Optional[torch.Tensor] = None,
	) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
	x_norm = self.norm_attn(x)
	attn_out = self.attn(x_norm, attn_mask=attn_mask)
	fuse_input = torch.cat([attn_out, state], dim=-1)
	gate = torch.sigmoid(self.state_gate(fuse_input))
	fused = self.state_fuse(fuse_input)
	fused = gate * fused + (1.0 - gate) * state
	if self.use_fused_ops:
	x = fused_residual_add(x, fused)
	else:
	x = x + fused
	ff_out, moe_aux_loss = self.ffn(self.norm_ff(x))
	if self.use_fused_ops:
	x = fused_residual_add(x, ff_out)
	else:
	x = x + ff_out
	new_state = torch.tanh(self.state_update(x))
	return x, new_state, moe_aux_loss

	def forward(
	self,
	x: torch.Tensor,
	state: torch.Tensor,
	attn_mask: Optional[torch.Tensor] = None,
	) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
	exec_prob = x.new_ones((x.size(0),))
	skip_aux_loss = x.new_zeros(())
	if self.skip_router is None:
	x, new_state, moe_aux_loss = self._run_core(x, state, attn_mask=attn_mask)
	return x, new_state, moe_aux_loss, skip_aux_loss, exec_prob.mean()

	router_input = x.mean(dim=1)
	exec_prob = torch.sigmoid(self.skip_router(router_input)).squeeze(-1)
	target = exec_prob.new_full(exec_prob.shape, self.layer_skip_target)
	skip_aux_loss = F.mse_loss(exec_prob, target)
	hard_gate = exec_prob >= self.layer_skip_threshold
	if not torch.any(hard_gate):
	return x, state, x.new_zeros(()), skip_aux_loss, exec_prob.mean()

	if torch.all(hard_gate):
	x_exec, state_exec, moe_aux_loss = self._run_core(x, state, attn_mask=attn_mask)
	elif self.packed_execution:
	active_indices = torch.nonzero(hard_gate, as_tuple=False).squeeze(-1)
	x_active, state_active = pack_rows(active_indices, x, state)
	x_active, state_active, moe_aux_loss = self._run_core(x_active, state_active, attn_mask=attn_mask)
	x_exec = scatter_rows(x, active_indices, x_active)
	state_exec = scatter_rows(state, active_indices, state_active)
	else:
	x_exec, state_exec, moe_aux_loss = self._run_core(x, state, attn_mask=attn_mask)

	if self.training:
	exec_gate = exec_prob + (hard_gate.to(exec_prob.dtype) - exec_prob).detach()
	exec_scale = exec_gate.view(-1, 1, 1)
	x_exec = x + exec_scale * (x_exec - x)
	state_exec = state + exec_scale * (state_exec - state)

	return x_exec, state_exec, moe_aux_loss, skip_aux_loss, exec_prob.mean()


	class RubiRLM(nn.Module):
	def __init__(self, cfg: RLMConfig):
	super().__init__()
	self.cfg = cfg
	self._last_moe_aux_loss = torch.tensor(0.0)
	self._last_layer_skip_aux_loss = torch.tensor(0.0)

	self.tok_emb = nn.Embedding(cfg.vocab_size, cfg.d_model)
	self.pos_emb = nn.Embedding(cfg.max_seq_len, cfg.d_model)
	self.drop = nn.Dropout(cfg.dropout)

	self.layers = nn.ModuleList([maybe_compile_module(RecursiveBlock(cfg), cfg.use_torch_compile) for _ in range(cfg.n_layers)])
	self.final_norm = RMSNorm(cfg.d_model)

	self.lm_head = nn.Linear(cfg.d_model, cfg.vocab_size, bias=False)
	if cfg.tie_embeddings:
	self.lm_head.weight = self.tok_emb.weight

	self.critique_head = nn.Sequential(
	nn.Linear(cfg.d_model, cfg.d_model // 2),
	nn.GELU(),
	nn.Linear(cfg.d_model // 2, 1),
	)

	def _causal_mask(self, seq_len: int, device: torch.device) -> torch.Tensor:
	mask = torch.full((seq_len, seq_len), float("-inf"), device=device)
	return torch.triu(mask, diagonal=1)

	def _embed(self, input_ids: torch.Tensor) -> torch.Tensor:
	bsz, seq_len = input_ids.shape
	if seq_len > self.cfg.max_seq_len:
	raise ValueError(f"Girdi uzunluÄŸu max_seq_len={self.cfg.max_seq_len} sÄ±nÄ±rÄ±nÄ± aÅŸÄ±yor.")
	pos = torch.arange(seq_len, device=input_ids.device).unsqueeze(0).expand(bsz, seq_len)
	return self.drop(self.tok_emb(input_ids) + self.pos_emb(pos))

	def forward_recursive(
	self,
	input_ids: torch.Tensor,
	steps: Optional[int] = None,
	stop_on_critique: bool = True,
	return_trace: bool = False,
	) -> Tuple[torch.Tensor, List[torch.Tensor], List[torch.Tensor]]:
	steps = steps or self.cfg.recurse_steps
	x = self._embed(input_ids)

	bsz, seq_len, d_model = x.shape
	states = [x.new_zeros((bsz, seq_len, d_model)) for _ in range(self.cfg.n_layers)]
	mask = self._causal_mask(seq_len, x.device)

	logits_trace: List[torch.Tensor] = []
	critique_trace: List[torch.Tensor] = []
	moe_aux_total = x.new_zeros(())
	layer_skip_aux_total = x.new_zeros(())

	for _ in range(steps):
	h = x
	new_states = []
	for layer, st in zip(self.layers, states):
	h, st_new, moe_aux, skip_aux, _ = layer(h, st, attn_mask=mask)
	new_states.append(st_new)
	moe_aux_total = moe_aux_total + moe_aux
	layer_skip_aux_total = layer_skip_aux_total + skip_aux
	states = new_states

	h_norm = self.final_norm(h)
	logits = self.lm_head(h_norm)
	pooled = h_norm[:, -1, :]
	critique = torch.sigmoid(self.critique_head(pooled)).squeeze(-1)

	logits_trace.append(logits)
	critique_trace.append(critique)
	x = h

	if stop_on_critique and torch.all(critique < self.cfg.critique_threshold):
	break

	denom = max(1, len(logits_trace) * len(self.layers))
	self._last_moe_aux_loss = moe_aux_total / denom
	self._last_layer_skip_aux_loss = layer_skip_aux_total / denom

	final_logits = logits_trace[-1]
	if return_trace:
	return final_logits, logits_trace, critique_trace
	return final_logits, [], critique_trace

	def training_loss(
	self,
	input_ids: torch.Tensor,
	target_ids: torch.Tensor,
	steps: Optional[int] = None,
	alpha_iterative: float = 0.30,
	beta_correction: float = 0.10,
	) -> torch.Tensor:
	final_logits, trace, critique = self.forward_recursive(
	input_ids, steps=steps, stop_on_critique=False, return_trace=True
	)

	final_loss = F.cross_entropy(
	final_logits.view(-1, final_logits.size(-1)),
	target_ids.view(-1),
	ignore_index=-100,
	)

	if trace:
	iterative = 0.0
	for logits in trace[:-1]:
	iterative = iterative + F.cross_entropy(
	logits.view(-1, logits.size(-1)),
	target_ids.view(-1),
	ignore_index=-100,
	)
	iterative = iterative / max(1, len(trace) - 1)
	else:
	iterative = final_loss.new_tensor(0.0)

	correction_bonus = 0.0
	if len(critique) > 1:
	start = critique[0].mean()
	end = critique[-1].mean()
	correction_bonus = torch.relu(end - start)

	total_loss = final_loss + alpha_iterative * iterative + beta_correction * correction_bonus
	if self.cfg.use_moe:
	total_loss = total_loss + self.cfg.moe_aux_loss_weight * self._last_moe_aux_loss
	if self.cfg.use_layer_skip:
	total_loss = total_loss + self.cfg.layer_skip_aux_weight * self._last_layer_skip_aux_loss
	return total_loss

	@torch.no_grad()
	def generate(
	self,
	input_ids: torch.Tensor,
	max_new_tokens: int = 64,
	temperature: float = 0.8,
	top_k: int = 50,
	steps: Optional[int] = None,
	) -> torch.Tensor:
	self.eval()
	out = input_ids

	for _ in range(max_new_tokens):
	context = out[:, -self.cfg.max_seq_len :]
	logits, _, _ = self.forward_recursive(context, steps=steps, stop_on_critique=True, return_trace=False)
	next_logits = logits[:, -1, :] / max(temperature, 1e-5)

	if top_k > 0:
	values, _ = torch.topk(next_logits, min(top_k, next_logits.size(-1)))
	cutoff = values[:, [-1]]
	next_logits = torch.where(next_logits < cutoff, torch.full_like(next_logits, -1e9), next_logits)

	probs = F.softmax(next_logits, dim=-1)
	next_token = torch.multinomial(probs, num_samples=1)
	out = torch.cat([out, next_token], dim=1)

	return out

	def generate_text(
	self,
	tokenizer: TextTokenizer,
	prompt: str,
	max_new_tokens: int = 128,
	temperature: float = 0.7,
	top_k: int = 50,
	steps: Optional[int] = None,
	device: Optional[torch.device] = None,
	) -> str:
	device = device or next(self.parameters()).device
	input_ids = tokenizer.encode(prompt, return_tensors="pt").to(device)
	output_ids = self.generate(
	input_ids,
	max_new_tokens=max_new_tokens,
	temperature=temperature,
	top_k=top_k,
	steps=steps,
	)
	new_tokens = output_ids[0, input_ids.shape[1] :].tolist()
	return tokenizer.decode(new_tokens, skip_special_tokens=True).strip()

	def chat(
	self,
	tokenizer: TextTokenizer,
	history: List[ChatTurn],
	user_message: str,
	lang: str = "auto",
	max_new_tokens: int = 192,
	temperature: float = 0.7,
	top_k: int = 50,
	steps: Optional[int] = None,
	device: Optional[torch.device] = None,
	) -> Tuple[str, List[ChatTurn]]:
	prompt = build_chat_prompt(history, user_message, lang=lang)
	assistant_reply = self.generate_text(
	tokenizer=tokenizer,
	prompt=prompt,
	max_new_tokens=max_new_tokens,
	temperature=temperature,
	top_k=top_k,
	steps=steps,
	device=device,
	)
	updated = history + [ChatTurn(role="user", content=user_message), ChatTurn(role="assistant", content=assistant_reply)]
	return assistant_reply, updated

	def outer_sleep_phase_step(
	self,
	optimizer: torch.optim.Optimizer,
	input_ids: torch.Tensor,
	target_ids: torch.Tensor,
	steps: Optional[int] = None,
	) -> float:
	self.train()
	optimizer.zero_grad(set_to_none=True)
	loss = self.training_loss(input_ids, target_ids, steps=steps)
	loss.backward()
	nn.utils.clip_grad_norm_(self.parameters(), 1.0)
	optimizer.step()
	return float(loss.detach().item())


	def estimate_parameters(cfg: RLMConfig) -> int:
	d = cfg.d_model
	total = cfg.vocab_size * d + cfg.max_seq_len * d
	attn_params = (4 * d * d) + (4 * d)
	state_params = (5 * d * d) + (3 * d)
	router_params = 0
	layer_skip_params = 0
	ff_params = (2 * d * d * cfg.ff_mult) + (d * cfg.ff_mult) + d
	if cfg.use_moe:
	router_params = (d * cfg.moe_num_experts) + cfg.moe_num_experts
	expert_params = (2 * d * cfg.moe_expert_hidden) + cfg.moe_expert_hidden + d
	ff_params = cfg.moe_num_experts * expert_params
	if cfg.use_layer_skip:
	layer_skip_params = d + 1
	per_layer = attn_params + state_params + router_params + layer_skip_params + ff_params + (2 * d)
	total += cfg.n_layers * per_layer
	total += d * (d // 2) + (d // 2) + (d // 2) + 1 + d
	if not cfg.tie_embeddings:
	total += d * cfg.vocab_size
	return total


	def estimate_active_parameters(cfg: RLMConfig) -> int:
	d = cfg.d_model
	total = cfg.vocab_size * d + cfg.max_seq_len * d
	attn_params = (4 * d * d) + (4 * d)
	state_params = (5 * d * d) + (3 * d)
	router_params = 0
	layer_skip_params = 0
	ff_params = (2 * d * d * cfg.ff_mult) + (d * cfg.ff_mult) + d
	if cfg.use_moe:
	router_params = (d * cfg.moe_num_experts) + cfg.moe_num_experts
	expert_params = (2 * d * cfg.moe_expert_hidden) + cfg.moe_expert_hidden + d
	ff_params = cfg.moe_top_k * expert_params
	if cfg.use_layer_skip:
	layer_skip_params = d + 1
	routed_layer = attn_params + state_params + router_params + ff_params + (2 * d)
	routed_layer = cfg.layer_skip_target * routed_layer
	per_layer = layer_skip_params + routed_layer
	total += cfg.n_layers * per_layer
	total += d * (d // 2) + (d // 2) + (d // 2) + 1 + d
	if not cfg.tie_embeddings:
	total += d * cfg.vocab_size
	return int(total)


	def language_system_prompt(lang: str) -> str:
	base = (
	"You are Rubi-RLM assistant. Reason step-by-step internally, be concise in final answer, "
	"self-correct if needed."
	)
	if lang == "tr":
	return base + " YanÄ±tlarÄ±nÄ± TÃ¼rkÃ§e ver."
	if lang == "en":
	return base + " Reply in English."
	return base + " Reply in the user's language (Turkish or English)."


	def build_chat_prompt(history: List[ChatTurn], user_message: str, lang: str = "auto") -> str:
	lines = [f"<\|system\|>\n{language_system_prompt(lang)}"]
	for turn in history:
	role = "user" if turn.role.lower() == "user" else "assistant"
	lines.append(f"<\|{role}\|>\n{turn.content}")
	lines.append(f"\n{user_message}")
	lines.append("<\|assistant\|>\n")
	return "\n".join(lines)


	def load_hf_tokenizer(tokenizer_name: str):
	if importlib.util.find_spec("transformers") is None:
	raise RuntimeError("transformers yÃ¼klÃ¼ deÄŸil. `pip install transformers` ile kurun.")
	transformers = importlib.import_module("transformers")
	tokenizer = transformers.AutoTokenizer.from_pretrained(tokenizer_name)
	if getattr(tokenizer, "pad_token_id", None) is None and getattr(tokenizer, "eos_token", None) is not None:
	tokenizer.pad_token = tokenizer.eos_token
	return tokenizer


	def demo() -> None:
	cfg = RLMConfig(
	vocab_size=4096,
	max_seq_len=128,
	d_model=256,
	n_layers=4,
	n_heads=8,
	ff_mult=4,
	recurse_steps=4,
	use_moe=True,
	moe_num_experts=8,
	moe_top_k=2,
	moe_expert_hidden=384,
	)
	model = RubiRLM(cfg)
	x = torch.randint(0, cfg.vocab_size, (2, 32))
	y = torch.randint(0, cfg.vocab_size, (2, 32))

	loss = model.training_loss(x, y)
	print(f"demo_loss={loss.item():.4f}")

	out = model.generate(x[:, :8], max_new_tokens=8, steps=3)
	print("generated_shape=", tuple(out.shape))


	def resolve_config(scale: str) -> RLMConfig:
	if scale == "1b":
	return RLMConfig.scale_1b()
	return RLMConfig(d_model=512, n_layers=8, n_heads=8, vocab_size=50_257, max_seq_len=512)


	def runtime_torch_compile_available() -> bool:
	if not hasattr(torch, "compile"):
	return False
	if torch.cuda.is_available() and importlib.util.find_spec("triton") is None:
	return False
	return True


	def apply_runtime_config_overrides(cfg: RLMConfig, args: argparse.Namespace) -> RLMConfig:
	cfg.moe_backend = getattr(args, "moe_backend", cfg.moe_backend)
	cfg.moe_ep_size = getattr(args, "moe_ep_size", cfg.moe_ep_size)
	requested_compile = bool(getattr(args, "use_torch_compile", cfg.use_torch_compile))
	cfg.use_torch_compile = requested_compile and runtime_torch_compile_available()
	return cfg


	def maybe_load_checkpoint(model: RubiRLM, checkpoint: Optional[str], device: torch.device) -> None:
	if not checkpoint:
	return
	state = torch.load(checkpoint, map_location=device)
	if isinstance(state, dict) and "model_state_dict" in state:
	model.load_state_dict(state["model_state_dict"])
	return
	model.load_state_dict(state)


	def run_single_chat(args: argparse.Namespace) -> None:
	cfg = apply_runtime_config_overrides(resolve_config(args.scale), args)
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	model = RubiRLM(cfg).to(device)
	maybe_load_checkpoint(model, args.checkpoint, device)
	tokenizer = load_hf_tokenizer(args.tokenizer_name)

	history: List[ChatTurn] = []
	if args.interactive:
	print("Interactive chat başladı. Çıkmak için /exit yaz.")
	while True:
	user_msg = input("You> ").strip()
	if not user_msg:
	continue
	if user_msg.lower() in {"/exit", "exit", "quit"}:
	break
	reply, history = model.chat(
	tokenizer=tokenizer,
	history=history,
	user_message=user_msg,
	lang=args.lang,
	max_new_tokens=args.max_new_tokens,
	temperature=args.temperature,
	top_k=args.top_k,
	steps=args.steps,
	device=device,
	)
	print(f"Rubi> {reply}")
	return

	if not args.prompt:
	raise ValueError("--chat modunda --prompt veya --interactive gerekli.")

	reply, _ = model.chat(
	tokenizer=tokenizer,
	history=[],
	user_message=args.prompt,
	lang=args.lang,
	max_new_tokens=args.max_new_tokens,
	temperature=args.temperature,
	top_k=args.top_k,
	steps=args.steps,
	device=device,
	)
	print(reply)


	def print_stack_report() -> None:
	report = detect_xqs_backends()
	print(format_backend_report(report))


	def run_train_demo(args: argparse.Namespace) -> None:
	cfg = apply_runtime_config_overrides(resolve_config(args.scale), args)
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	model = RubiRLM(cfg).to(device)
	maybe_load_checkpoint(model, args.checkpoint, device)

	train_cfg = TrainStackConfig(
	optimizer_name=args.optimizer_name,
	learning_rate=args.learning_rate,
	weight_decay=args.weight_decay,
	batch_size=args.batch_size,
	num_workers=args.num_workers,
	pin_memory=not args.disable_pin_memory,
	prefetch_factor=args.prefetch_factor,
	persistent_workers=not args.disable_persistent_workers,
	max_seq_len=cfg.max_seq_len,
	dataset_dir=args.dataset_dir,
	use_bf16=not args.disable_bf16,
	)
	dataset = build_dataset(
	dataset_dir=train_cfg.dataset_dir,
	vocab_size=cfg.vocab_size,
	max_seq_len=min(cfg.max_seq_len, args.train_seq_len),
	synthetic_samples=max(args.train_steps * args.batch_size * 2, 32),
	)
	dataloader = build_dataloader(dataset, train_cfg, shuffle=True)
	optimizer = build_optimizer(model, train_cfg)
	mean_loss, total_tokens = train_demo_steps(
	model=model,
	optimizer=optimizer,
	dataloader=dataloader,
	device=device,
	steps=args.train_steps,
	use_bf16=train_cfg.use_bf16,
	)
	print(
	f"train_demo optimizer={optimizer.__class__.__name__} steps={args.train_steps} "
	f"mean_loss={mean_loss:.4f} tokens={total_tokens:,} device={device}"
	)


	def main() -> None:
	parser = argparse.ArgumentParser(description="Rubi-RLM recursive language model")
	parser.add_argument("--scale", choices=["1b", "tiny"], default="1b")
	parser.add_argument("--estimate-only", action="store_true")
	parser.add_argument("--demo", action="store_true")
	parser.add_argument("--train-demo", action="store_true")
	parser.add_argument("--stack-report", action="store_true")

	parser.add_argument("--chat", action="store_true", help="Türkçe/İngilizce sohbet modunu açar")
	parser.add_argument("--interactive", action="store_true", help="Interactive chat loop")
	parser.add_argument("--prompt", type=str, default="")
	parser.add_argument("--lang", choices=["auto", "tr", "en"], default="auto")
	parser.add_argument("--tokenizer-name", type=str, default="gpt2")
	parser.add_argument("--checkpoint", type=str, default=None)
	parser.add_argument("--steps", type=int, default=None)
	parser.add_argument("--max-new-tokens", type=int, default=192)
	parser.add_argument("--temperature", type=float, default=0.7)
	parser.add_argument("--top-k", type=int, default=50)
	parser.add_argument("--optimizer-name", type=str, default="auto")
	parser.add_argument("--moe-backend", choices=["auto", "native", "deepspeed"], default="auto")
	parser.add_argument("--moe-ep-size", type=int, default=1)
	parser.add_argument("--use-torch-compile", action="store_true")
	parser.add_argument("--learning-rate", type=float, default=3e-4)
	parser.add_argument("--weight-decay", type=float, default=0.01)
	parser.add_argument("--batch-size", type=int, default=2)
	parser.add_argument("--num-workers", type=int, default=2)
	parser.add_argument("--prefetch-factor", type=int, default=4)
	parser.add_argument("--dataset-dir", type=str, default="")
	parser.add_argument("--train-steps", type=int, default=2)
	parser.add_argument("--train-seq-len", type=int, default=256)
	parser.add_argument("--disable-pin-memory", action="store_true")
	parser.add_argument("--disable-persistent-workers", action="store_true")
	parser.add_argument("--disable-bf16", action="store_true")
	args = parser.parse_args()

	if args.chat:
	run_single_chat(args)
	return

	if args.stack_report:
	print_stack_report()
	return

	if args.train_demo:
	run_train_demo(args)
	return

	if args.demo:
	demo()
	return

	cfg = apply_runtime_config_overrides(resolve_config(args.scale), args)
	n_params = estimate_parameters(cfg)
	active_params = estimate_active_parameters(cfg)
	print(f"Scale={args.scale}, estimated_params={n_params:,}, estimated_active_params={active_params:,}")
	if not args.estimate_only:
	model = RubiRLM(cfg)
	actual = sum(p.numel() for p in model.parameters())
	print(f"actual_params={actual:,}")


	if __name__ == "__main__":
	main()