cond_gen / qwen3_plain_ar.py

Add files using upload-large-folder tool

60f02df verified 14 days ago

31.1 kB

	#!/usr/bin/env python3
	# -- coding: utf-8 --
	"""
	Pure Qwen3 autoregressive training/inference for music token generation.

	This variant keeps:
	- style
	- section structure in the prompt
	- section lyrics/description

	This variant removes:
	- frame-level chord conditioning
	- frame-level structure conditioning
	- condition encoder / AdaLN injection
	"""

	from __future__ import annotations

	import argparse
	import os
	from dataclasses import dataclass
	from datetime import datetime
	from pathlib import Path
	from typing import Any

	import datasets
	import numpy as np
	import torch
	from torch.nn.utils.rnn import pad_sequence
	from transformers import AutoConfig, AutoTokenizer, Trainer, TrainingArguments
	from transformers.models.qwen3.modeling_qwen3 import Qwen3ForCausalLM

	from audio_tokens import (
	EOA_TOKEN,
	MASK_AUDIO_TOKEN,
	SOA_TOKEN,
	add_audio_special_tokens,
	audio_id_to_token,
	)
	from dataset import normalize_section_text, SECTION_NAME_MAP, SINGLETON_SECTION_NAMES
	from inference_full import build_mucodec_decoder, decode_mucodec_codes
	from runtime_utils import resolve_device, seed_everything
	from vocab import normalize_structure_label


	def parse_args() -> argparse.Namespace:
	parser = argparse.ArgumentParser(
	description="Pure Qwen3 autoregressive training/inference without frame-level conditioning."
	)
	subparsers = parser.add_subparsers(dest="command", required=True)

	train_parser = subparsers.add_parser(
	"train",
	help="Train a plain Qwen3 autoregressive model on section prompts and audio tokens.",
	)
	add_train_args(train_parser)

	infer_parser = subparsers.add_parser(
	"infer",
	help="Run section-wise autoregressive inference with a plain Qwen3 checkpoint.",
	)
	add_infer_args(infer_parser)

	return parser.parse_args()


	def add_train_args(parser: argparse.ArgumentParser) -> None:
	parser.add_argument("--dataset_path", type=str, default="muse_mucodec_chord.ds")
	parser.add_argument(
	"--model_path",
	type=str,
	default="checkpoints/Qwen3-0.6B",
	help="Local Qwen3 base checkpoint path.",
	)
	parser.add_argument(
	"--tokenizer_path",
	type=str,
	default="checkpoints/Qwen3-0.6B",
	help="Local tokenizer checkpoint path.",
	)
	parser.add_argument(
	"--num_audio_token",
	type=int,
	default=None,
	help="Audio codebook size. Defaults to checkpoint metadata when available, else 16384.",
	)
	parser.add_argument(
	"--model_dtype",
	type=str,
	default="bfloat16",
	choices=["float32", "float16", "bfloat16"],
	)
	parser.add_argument(
	"--attn_implementation",
	type=str,
	default="sdpa",
	choices=["eager", "sdpa", "flash_attention_2"],
	)
	parser.add_argument("--output_dir", type=str, default="./output_qwen3_plain_ar")
	parser.add_argument("--per_device_train_batch_size", type=int, default=1)
	parser.add_argument("--gradient_accumulation_steps", type=int, default=4)
	parser.add_argument("--learning_rate", type=float, default=1e-4)
	parser.add_argument("--weight_decay", type=float, default=0.01)
	parser.add_argument("--num_train_epochs", type=float, default=20)
	parser.add_argument("--warmup_steps", type=int, default=1000)
	parser.add_argument("--max_grad_norm", type=float, default=5.0)
	parser.add_argument("--logging_steps", type=int, default=10)
	parser.add_argument(
	"--resume_from_checkpoint",
	type=str,
	default=None,
	help="Resume training from a Trainer checkpoint directory such as output_dir/checkpoint-500.",
	)
	parser.add_argument("--dataloader_num_workers", type=int, default=12)
	parser.add_argument(
	"--gradient_checkpointing",
	dest="gradient_checkpointing",
	action="store_true",
	)
	parser.add_argument(
	"--deepspeed",
	type=str,
	default=None,
	help="Path to DeepSpeed config. Leave unset to disable DeepSpeed.",
	)
	parser.add_argument("--report_to", type=str, default="wandb")
	parser.add_argument("--wandb_project", type=str, default="vaultum-qwen3-0p6b")
	parser.add_argument("--wandb_run_name", type=str, default=None)


	def add_infer_args(parser: argparse.ArgumentParser) -> None:
	parser.add_argument("--model_path", type=str, required=True)
	parser.add_argument(
	"--tokenizer_path",
	type=str,
	default=None,
	help="Tokenizer path. Defaults to --model_path.",
	)
	parser.add_argument("--dataset_path", type=str, default="muse_mucodec_chord.ds")
	parser.add_argument("--split", type=str, default="validation")
	parser.add_argument("--sample_idx", type=int, default=0)
	parser.add_argument(
	"--num_audio_token",
	type=int,
	default=None,
	help="Audio codebook size. Defaults to checkpoint metadata when available, else 16384.",
	)
	parser.add_argument("--seed", type=int, default=1234)
	parser.add_argument("--device", type=str, default="auto")
	parser.add_argument(
	"--dtype",
	type=str,
	default="bfloat16",
	choices=["float32", "float16", "bfloat16"],
	)
	parser.add_argument(
	"--attn_implementation",
	type=str,
	default="sdpa",
	choices=["eager", "sdpa", "flash_attention_2"],
	)
	parser.add_argument("--temperature", type=float, default=1.0)
	parser.add_argument("--top_k", type=int, default=50)
	parser.add_argument("--top_p", type=float, default=0.90)
	parser.add_argument("--greedy", action="store_true", default=False)
	parser.add_argument("--use_cache", action="store_true", default=True)
	parser.add_argument("--no_cache", action="store_true", default=False)
	parser.add_argument(
	"--max_new_tokens_per_section",
	type=int,
	default=2048,
	help="Upper bound for each section decode before forcing a failure.",
	)
	parser.add_argument("--output_dir", type=str, default="plain_ar_predictions")
	parser.add_argument("--output_prefix", type=str, default="")
	parser.add_argument("--skip_decode", action="store_true", default=False)
	parser.add_argument("--mucodec_device", type=str, default="auto")
	parser.add_argument("--mucodec_layer_num", type=int, default=7)
	parser.add_argument("--mucodec_duration", type=float, default=40.96)
	parser.add_argument("--mucodec_guidance_scale", type=float, default=1.5)
	parser.add_argument("--mucodec_num_steps", type=int, default=20)
	parser.add_argument("--mucodec_sample_rate", type=int, default=48000)


	def resolve_model_source(model_path: str, resume_from_checkpoint: str \| None) -> str:
	if not resume_from_checkpoint:
	return model_path
	if os.path.abspath(model_path) != os.path.abspath(resume_from_checkpoint):
	print(
	"Ignoring --model_path during resume and loading config/model from: "
	f"{resume_from_checkpoint}"
	)
	return resume_from_checkpoint


	def get_model_dtype(name: str) -> torch.dtype:
	return {
	"float32": torch.float32,
	"float16": torch.float16,
	"bfloat16": torch.bfloat16,
	}[name]


	def resolve_num_audio_token(checkpoint_path: str, explicit_value: int \| None) -> int:
	if explicit_value is not None:
	return int(explicit_value)
	config = AutoConfig.from_pretrained(
	checkpoint_path,
	local_files_only=True,
	)
	return int(getattr(config, "magel_num_audio_token", 16384))


	@dataclass
	class PreparedSection:
	text: str
	desc: str
	start_frame: int
	end_frame: int
	structure: str
	index: int


	class PlainARDataCollator:
	def __init__(self, pad_token_id: int = 0):
	self.pad_token_id = int(pad_token_id)

	def __call__(self, batch: list[dict[str, torch.Tensor]]) -> dict[str, torch.Tensor]:
	return {
	"input_ids": pad_sequence(
	[row["input_ids"] for row in batch],
	batch_first=True,
	padding_value=self.pad_token_id,
	),
	"attention_mask": pad_sequence(
	[row["attention_mask"] for row in batch],
	batch_first=True,
	padding_value=0,
	),
	"labels": pad_sequence(
	[row["labels"] for row in batch],
	batch_first=True,
	padding_value=-100,
	),
	}


	class PlainARMusicDataset(torch.utils.data.Dataset):
	def __init__(
	self,
	datasets_obj,
	split: str,
	tokenizer_path: str,
	num_audio_token: int = 16384,
	fps: int = 25,
	use_fast: bool = True,
	):
	self._data = datasets_obj[split]
	self.tokenizer_path = tokenizer_path
	self.num_audio_token = int(num_audio_token)
	self.fps = int(fps)
	self.use_fast = bool(use_fast)

	self.tokenizer = AutoTokenizer.from_pretrained(
	tokenizer_path,
	local_files_only=True,
	use_fast=use_fast,
	)
	add_audio_special_tokens(self.tokenizer, self.num_audio_token)
	self.tokenizer_vocab_size = len(self.tokenizer)

	self.audio_prefix_length = int(
	self.tokenizer.convert_tokens_to_ids(audio_id_to_token(0))
	)
	self.MASK_AUDIO = int(self.tokenizer.convert_tokens_to_ids(MASK_AUDIO_TOKEN))
	self.BOS_AUDIO = int(self.tokenizer.convert_tokens_to_ids(SOA_TOKEN))
	self.EOS_AUDIO = int(self.tokenizer.convert_tokens_to_ids(EOA_TOKEN))
	self.pad_token_id = (
	int(self.tokenizer.pad_token_id)
	if self.tokenizer.pad_token_id is not None
	else 0
	)
	self._assistant_audio_placeholder = f"{SOA_TOKEN}{EOA_TOKEN}"
	self._chat_template_kwargs = {"enable_thinking": False}

	def __len__(self) -> int:
	return len(self._data)

	def __getitem__(self, idx: int) -> dict[str, torch.Tensor]:
	sample = self.raw_sample(idx)
	sections = self.prepare_sections(sample)
	token_ids, attention_mask = self.tokenize_messages(
	self.build_messages(sample, sections),
	sample["mucodec_codes"],
	sections,
	)
	labels = self.build_labels(token_ids)

	return {
	"input_ids": token_ids,
	"attention_mask": attention_mask,
	"labels": labels,
	}

	def raw_sample(self, idx: int) -> dict[str, Any]:
	return self._data[idx]

	@staticmethod
	def _positions(token_ids: torch.Tensor, target_id: int) -> torch.Tensor:
	return torch.nonzero(token_ids == target_id, as_tuple=False).squeeze(-1)

	@staticmethod
	def _sorted_sections(sample: dict[str, Any]) -> list[dict[str, Any]]:
	return sorted(
	(
	{
	"raw_index": raw_index,
	"text": str(seg["text"]),
	"desc": str(seg["desc"]).strip(),
	"start": float(seg["start"]),
	"end": float(seg["end"]),
	"structure": normalize_structure_label(seg["section"]),
	}
	for raw_index, seg in enumerate(sample.get("sections", []))
	),
	key=lambda seg: (seg["start"], seg["end"], seg["raw_index"]),
	)

	def prepare_sections(self, sample: dict[str, Any]) -> list[PreparedSection]:
	sections: list[PreparedSection] = []
	section_counts: dict[str, int] = {}
	total_frames = len(sample["mucodec_codes"])
	prev_end_idx = 0
	sample_language = sample.get("language")

	for seg in self._sorted_sections(sample):
	structure = seg["structure"]
	section_counts[structure] = section_counts.get(structure, 0) + 1
	raw_end_idx = max(
	prev_end_idx,
	min(total_frames, int(np.ceil(seg["end"] * self.fps))),
	)
	sections.append(
	PreparedSection(
	text=normalize_section_text(
	seg["text"],
	structure,
	language=sample_language,
	),
	desc=seg["desc"],
	start_frame=prev_end_idx,
	end_frame=raw_end_idx,
	structure=structure,
	index=section_counts[structure],
	)
	)
	prev_end_idx = raw_end_idx

	if sections:
	last = sections[-1]
	sections[-1] = PreparedSection(
	text=last.text,
	desc=last.desc,
	start_frame=last.start_frame,
	end_frame=total_frames,
	structure=last.structure,
	index=last.index,
	)

	return sections

	def format_section_label(self, section: PreparedSection) -> str:
	label = SECTION_NAME_MAP[section.structure]
	if section.structure in SINGLETON_SECTION_NAMES and section.index == 1:
	return label
	return f"{label} {section.index}"

	def build_section_user_content(
	self,
	sample: dict[str, Any],
	section: PreparedSection,
	is_first_turn: bool,
	) -> str:
	parts: list[str] = []
	if is_first_turn:
	style = str(sample.get("style", "")).strip()
	if style:
	parts.append(
	f"Please generate a song in the following style:{style}\n"
	"Next, I will tell you the requirements and lyrics for the song "
	"fragment to be generated, section by section."
	)
	else:
	parts.append(
	"Please generate the song section by section. "
	"Next, I will tell you the requirements and lyrics for each fragment."
	)

	section_parts = [f"[{self.format_section_label(section)}]"]
	if section.desc:
	section_parts.append(f"[desc:{section.desc}]")
	if section.text:
	section_parts.append(f"[lyrics:{section.text}]")
	parts.append("".join(section_parts))
	return "\n".join(part for part in parts if part)

	def build_messages(
	self,
	sample: dict[str, Any],
	sections: list[PreparedSection],
	) -> list[dict[str, str]]:
	messages: list[dict[str, str]] = []
	for idx, section in enumerate(sections):
	messages.append(
	{
	"role": "user",
	"content": self.build_section_user_content(
	sample=sample,
	section=section,
	is_first_turn=(idx == 0),
	),
	}
	)
	messages.append(
	{
	"role": "assistant",
	"content": self._assistant_audio_placeholder,
	}
	)
	return messages

	def tokenize_messages(
	self,
	messages: list[dict[str, str]],
	full_audio_codes,
	sections: list[PreparedSection],
	) -> tuple[torch.Tensor, torch.Tensor]:
	chat_inputs = self.tokenizer.apply_chat_template(
	messages,
	tokenize=True,
	add_generation_prompt=False,
	return_tensors="pt",
	return_dict=True,
	**self._chat_template_kwargs,
	)
	token_ids = chat_inputs["input_ids"].squeeze(0).to(torch.long)
	attention_mask = chat_inputs["attention_mask"].squeeze(0).to(torch.long)
	return self.expand_audio_tokens(
	token_ids=token_ids,
	attention_mask=attention_mask,
	full_audio_codes=full_audio_codes,
	sections=sections,
	)

	def expand_audio_tokens(
	self,
	token_ids: torch.Tensor,
	attention_mask: torch.Tensor,
	full_audio_codes,
	sections: list[PreparedSection],
	) -> tuple[torch.Tensor, torch.Tensor]:
	if not sections:
	return token_ids, attention_mask

	bos_positions = self._positions(token_ids, self.BOS_AUDIO)
	eos_positions = self._positions(token_ids, self.EOS_AUDIO)
	audio_code_tensor = torch.as_tensor(full_audio_codes, dtype=torch.long)

	extra_audio_tokens = sum(
	int(section.end_frame) - int(section.start_frame)
	for section in sections
	)
	final_len = token_ids.numel() + extra_audio_tokens

	expanded_token_ids = torch.empty(final_len, dtype=torch.long)
	expanded_attention_mask = torch.empty(final_len, dtype=torch.long)
	read_pos = 0
	write_pos = 0

	for bos_pos, eos_pos, section in zip(
	bos_positions.tolist(),
	eos_positions.tolist(),
	sections,
	):
	start_idx = int(section.start_frame)
	end_idx = int(section.end_frame)
	audio_len = max(0, end_idx - start_idx)

	prefix_len = bos_pos + 1 - read_pos
	next_write = write_pos + prefix_len
	expanded_token_ids[write_pos:next_write] = token_ids[read_pos : bos_pos + 1]
	expanded_attention_mask[write_pos:next_write] = attention_mask[
	read_pos : bos_pos + 1
	]
	write_pos = next_write

	if audio_len > 0:
	next_write = write_pos + audio_len
	expanded_token_ids[write_pos:next_write] = audio_code_tensor[
	start_idx:end_idx
	]
	expanded_token_ids[write_pos:next_write].add_(self.audio_prefix_length)
	expanded_attention_mask[write_pos:next_write] = 1
	write_pos = next_write

	expanded_token_ids[write_pos] = token_ids[eos_pos]
	expanded_attention_mask[write_pos] = attention_mask[eos_pos]
	write_pos += 1
	read_pos = eos_pos + 1

	tail_len = token_ids.numel() - read_pos
	if tail_len > 0:
	expanded_token_ids[write_pos : write_pos + tail_len] = token_ids[read_pos:]
	expanded_attention_mask[write_pos : write_pos + tail_len] = attention_mask[
	read_pos:
	]

	return expanded_token_ids, expanded_attention_mask

	def build_labels(self, token_ids: torch.Tensor) -> torch.Tensor:
	audio_codebook_mask = (token_ids >= self.audio_prefix_length) & (
	token_ids < self.MASK_AUDIO
	)
	eos_mask = token_ids == self.EOS_AUDIO
	label_mask = audio_codebook_mask \| eos_mask

	labels = token_ids.clone()
	labels[~label_mask] = -100
	return labels

	def render_audio_token_string(
	self,
	audio_token_ids: list[int],
	include_bos: bool = True,
	include_eos: bool = True,
	) -> str:
	parts: list[str] = []
	if include_bos:
	parts.append(SOA_TOKEN)
	parts.extend(self.tokenizer.convert_ids_to_tokens(audio_token_ids))
	if include_eos:
	parts.append(EOA_TOKEN)
	return "".join(parts)


	def create_plain_qwen3_model(
	model_path: str,
	model_dtype: torch.dtype,
	attn_implementation: str,
	target_vocab_size: int,
	) -> Qwen3ForCausalLM:
	print(f"Loading Qwen3 model from: {model_path}")
	config = AutoConfig.from_pretrained(
	model_path,
	local_files_only=True,
	)
	model = Qwen3ForCausalLM.from_pretrained(
	model_path,
	config=config,
	torch_dtype=model_dtype,
	attn_implementation=attn_implementation,
	ignore_mismatched_sizes=True,
	local_files_only=True,
	)
	model.resize_token_embeddings(target_vocab_size)

	total_params = sum(p.numel() for p in model.parameters())
	trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)

	print(f"Total parameters: {total_params:,}")
	print(f"Trainable parameters: {trainable_params:,}")
	return model


	def load_plain_qwen3_for_inference(
	model_path: str,
	device: torch.device,
	dtype: torch.dtype,
	attn_implementation: str,
	target_vocab_size: int,
	) -> Qwen3ForCausalLM:
	model = create_plain_qwen3_model(
	model_path=model_path,
	model_dtype=dtype,
	attn_implementation=attn_implementation,
	target_vocab_size=target_vocab_size,
	)
	model.to(device=device)
	model.eval()
	return model


	def create_plain_ar_dataset(
	dataset_path: str,
	split: str,
	tokenizer_path: str,
	num_audio_token: int,
	) -> PlainARMusicDataset:
	hf_ds = datasets.load_from_disk(dataset_path)
	if isinstance(hf_ds, datasets.DatasetDict):
	container = hf_ds
	else:
	container = {split: hf_ds}
	return PlainARMusicDataset(
	datasets_obj=container,
	split=split,
	tokenizer_path=tokenizer_path,
	num_audio_token=num_audio_token,
	use_fast=True,
	)


	def run_train(args: argparse.Namespace) -> None:
	model_dtype = get_model_dtype(args.model_dtype)
	model_source = resolve_model_source(
	model_path=args.model_path,
	resume_from_checkpoint=args.resume_from_checkpoint,
	)
	num_audio_token = resolve_num_audio_token(model_source, args.num_audio_token)
	print(f"Using num_audio_token={num_audio_token}")

	train_dataset = create_plain_ar_dataset(
	dataset_path=args.dataset_path,
	split="train",
	tokenizer_path=args.tokenizer_path,
	num_audio_token=num_audio_token,
	)
	print(f"Dataset size: {len(train_dataset)}")

	model = create_plain_qwen3_model(
	model_path=model_source,
	model_dtype=model_dtype,
	attn_implementation=args.attn_implementation,
	target_vocab_size=train_dataset.tokenizer_vocab_size,
	)

	training_args = TrainingArguments(
	output_dir=args.output_dir,
	per_device_train_batch_size=args.per_device_train_batch_size,
	gradient_accumulation_steps=args.gradient_accumulation_steps,
	learning_rate=args.learning_rate,
	weight_decay=args.weight_decay,
	num_train_epochs=args.num_train_epochs,
	warmup_steps=args.warmup_steps,
	max_grad_norm=args.max_grad_norm,
	logging_steps=args.logging_steps,
	save_strategy="epoch",
	dataloader_num_workers=args.dataloader_num_workers,
	bf16=(args.model_dtype == "bfloat16"),
	fp16=(args.model_dtype == "float16"),
	gradient_checkpointing=args.gradient_checkpointing,
	gradient_checkpointing_kwargs={"use_reentrant": False},
	deepspeed=args.deepspeed,
	remove_unused_columns=False,
	dataloader_drop_last=True,
	report_to=args.report_to,
	logging_dir=None,
	run_name=args.wandb_run_name,
	)

	if args.wandb_project and "wandb" in args.report_to:
	os.environ["WANDB_PROJECT"] = args.wandb_project

	trainer = Trainer(
	model=model,
	args=training_args,
	train_dataset=train_dataset,
	data_collator=PlainARDataCollator(
	pad_token_id=train_dataset.pad_token_id,
	),
	)

	if args.resume_from_checkpoint:
	print(f"Resuming training from checkpoint: {args.resume_from_checkpoint}")
	else:
	print("Starting training from current model initialization.")

	trainer.train(resume_from_checkpoint=args.resume_from_checkpoint)
	final_dir = os.path.join(args.output_dir, "final")
	trainer.save_model(final_dir)
	train_dataset.tokenizer.save_pretrained(final_dir)
	print(f"Training complete. Final model saved to: {final_dir}")


	def sanitize_generated_section(
	generated_ids: list[int],
	eos_audio_id: int,
	audio_start: int,
	audio_end: int,
	) -> list[int]:
	if not generated_ids:
	raise RuntimeError("Generation returned no new tokens for the current section.")
	if generated_ids[-1] != eos_audio_id:
	raise RuntimeError(
	"Section generation did not terminate with [EOA]. "
	"Increase --max_new_tokens_per_section or inspect the checkpoint."
	)
	invalid_ids = [
	tid for tid in generated_ids[:-1] if not (audio_start <= tid < audio_end)
	]
	if invalid_ids:
	preview = invalid_ids[:8]
	raise RuntimeError(
	"Section generation produced non-audio tokens before [EOA]: "
	f"{preview}"
	)
	audio_ids = generated_ids[:-1]
	return audio_ids


	@torch.inference_mode()
	def generate_sections_autoregressively(
	model: Qwen3ForCausalLM,
	music_ds: PlainARMusicDataset,
	sample: dict[str, Any],
	device: torch.device,
	args: argparse.Namespace,
	) -> tuple[list[list[int]], list[dict[str, Any]]]:
	messages: list[dict[str, str]] = []
	sections = music_ds.prepare_sections(sample)
	section_records: list[dict[str, Any]] = []
	use_cache = args.use_cache and not args.no_cache

	eos_token_id = music_ds.EOS_AUDIO
	pad_token_id = (
	int(music_ds.tokenizer.eos_token_id)
	if music_ds.tokenizer.eos_token_id is not None
	else music_ds.pad_token_id
	)

	all_section_audio_ids: list[list[int]] = []
	for section_idx, section in enumerate(sections):
	user_content = music_ds.build_section_user_content(
	sample=sample,
	section=section,
	is_first_turn=(section_idx == 0),
	)
	messages.append({"role": "user", "content": user_content})
	messages.append({"role": "assistant", "content": SOA_TOKEN})

	chat_inputs = music_ds.tokenizer.apply_chat_template(
	messages,
	tokenize=True,
	add_generation_prompt=False,
	return_tensors="pt",
	return_dict=True,
	**music_ds._chat_template_kwargs,
	)
	input_ids = chat_inputs["input_ids"].to(device)
	attention_mask = chat_inputs["attention_mask"].to(device)

	generated = model.generate(
	input_ids=input_ids,
	attention_mask=attention_mask,
	do_sample=not bool(args.greedy),
	temperature=float(args.temperature),
	top_k=int(args.top_k),
	top_p=float(args.top_p),
	max_new_tokens=int(args.max_new_tokens_per_section),
	eos_token_id=eos_token_id,
	pad_token_id=pad_token_id,
	use_cache=use_cache,
	)
	new_ids = generated[0, input_ids.shape[1] :].tolist()
	audio_ids = sanitize_generated_section(
	generated_ids=new_ids,
	eos_audio_id=music_ds.EOS_AUDIO,
	audio_start=music_ds.audio_prefix_length,
	audio_end=music_ds.MASK_AUDIO,
	)

	all_section_audio_ids.append(audio_ids)
	messages[-1]["content"] = music_ds.render_audio_token_string(
	audio_token_ids=audio_ids,
	include_bos=True,
	include_eos=True,
	)

	section_records.append(
	{
	"section_index": section_idx,
	"section_label": music_ds.format_section_label(section),
	"desc": section.desc,
	"lyrics": section.text,
	"generated_audio_tokens": len(audio_ids),
	}
	)
	print(
	f"[INFO] section={section_idx} "
	f"label={music_ds.format_section_label(section)!r} "
	f"generated_audio_tokens={len(audio_ids)}"
	)

	return all_section_audio_ids, section_records


	def save_inference_outputs(
	output_dir: str,
	output_prefix: str,
	sample_idx: int,
	sample: dict[str, Any],
	section_audio_ids: list[list[int]],
	section_records: list[dict[str, Any]],
	music_ds: PlainARMusicDataset,
	args: argparse.Namespace,
	) -> None:
	Path(output_dir).mkdir(parents=True, exist_ok=True)
	stamp = datetime.now().strftime("%Y%m%d_%H%M%S")
	prefix = output_prefix or f"{sample['song_id']}_{sample_idx}_{stamp}"

	json_path = Path(output_dir) / f"{prefix}.json"
	wav_path = Path(output_dir) / f"{prefix}.wav"

	flat_token_ids: list[int] = []
	for section_ids in section_audio_ids:
	flat_token_ids.extend(section_ids)

	payload = {
	"song_id": str(sample.get("song_id", f"sample_{sample_idx}")),
	"sample_idx": int(sample_idx),
	"num_sections": len(section_audio_ids),
	"generated_audio_tokens": len(flat_token_ids),
	"sections": section_records,
	}
	with open(json_path, "w", encoding="utf-8") as f:
	import json

	json.dump(payload, f, ensure_ascii=False, indent=2)
	print(f"[OK] {json_path}")

	if args.skip_decode:
	return

	shifted_codes = np.asarray(flat_token_ids, dtype=np.int64) - music_ds.audio_prefix_length
	if shifted_codes.size == 0:
	print("[WARN] No generated MuCodec tokens; skipping wav decode.")
	return

	import torchaudio

	mucodec_decoder = build_mucodec_decoder(args)
	wave = decode_mucodec_codes(
	mucodec_decoder=mucodec_decoder,
	shifted_codes=shifted_codes,
	args=args,
	)
	torchaudio.save(str(wav_path), wave, int(args.mucodec_sample_rate))
	print(f"[OK] {wav_path}")


	def run_infer(args: argparse.Namespace) -> None:
	seed_everything(args.seed)

	tokenizer_path = args.tokenizer_path or args.model_path
	num_audio_token = resolve_num_audio_token(args.model_path, args.num_audio_token)
	print(f"Using num_audio_token={num_audio_token}")

	device = resolve_device(args.device)
	dtype = get_model_dtype(args.dtype)
	if device.type == "cpu" and dtype != torch.float32:
	print(f"[WARN] dtype {dtype} on CPU may be unsupported; fallback to float32.")
	dtype = torch.float32

	music_ds = create_plain_ar_dataset(
	dataset_path=args.dataset_path,
	split=args.split,
	tokenizer_path=tokenizer_path,
	num_audio_token=num_audio_token,
	)
	sample = music_ds.raw_sample(args.sample_idx)
	model = load_plain_qwen3_for_inference(
	model_path=args.model_path,
	device=device,
	dtype=dtype,
	attn_implementation=args.attn_implementation,
	target_vocab_size=music_ds.tokenizer_vocab_size,
	)

	section_audio_ids, section_records = generate_sections_autoregressively(
	model=model,
	music_ds=music_ds,
	sample=sample,
	device=device,
	args=args,
	)
	save_inference_outputs(
	output_dir=args.output_dir,
	output_prefix=args.output_prefix,
	sample_idx=args.sample_idx,
	sample=sample,
	section_audio_ids=section_audio_ids,
	section_records=section_records,
	music_ds=music_ds,
	args=args,
	)


	def main() -> None:
	args = parse_args()
	if args.command == "train":
	run_train(args)
	return
	if args.command == "infer":
	run_infer(args)
	return
	raise ValueError(f"Unknown command: {args.command}")


	if __name__ == "__main__":
	main()