FireRedASR-AED / fireredasr_axmodel.py

Change silero-vad to silero_vad_axera

b39c054 4 months ago

23.7 kB

	from fireredasr.data.asr_feat import ASRFeatExtractor
	from fireredasr.tokenizer.aed_tokenizer import ChineseCharEnglishSpmTokenizer

	import axengine as axe
	import torch
	import torch.nn.functional as F
	import numpy as np
	from torch import Tensor
	from typing import Tuple, List, Dict
	import os
	import time
	import torchaudio
	from concurrent.futures import ThreadPoolExecutor, as_completed

	try:
	torchaudio.set_audio_backend("soundfile")
	except Exception as e:
	print("Please run apt install libsnffile1 first")
	raise e

	from silero_vad_axera import load_silero_vad, read_audio, get_speech_timestamps

	INF = 1e10


	def to_numpy(tensor):
	if isinstance(tensor, np.ndarray):
	return tensor
	if tensor.requires_grad:
	return tensor.detach().cpu().numpy()
	else:
	return tensor.cpu().numpy()


	def set_finished_beam_score_to_zero(scores, is_finished):
	NB, B = scores.size()
	is_finished = is_finished.float()
	mask_score = torch.tensor([0.0] + [-INF] * (B - 1)).float()
	mask_score = mask_score.view(1, B).repeat(NB, 1)
	return scores * (1 - is_finished) + mask_score * is_finished


	def set_finished_beam_y_to_eos(ys, is_finished, eos_id):
	is_finished = is_finished.long()
	return ys * (1 - is_finished) + eos_id * is_finished


	def expand_for_beam_search(n_layer_cross_k, beam_size):
	"""方法1: 使用expand_dims + tile + reshape (最快)"""
	num_layer, batch_size, Ti, encoder_out_dim = n_layer_cross_k.shape

	# 在第2维插入新维度
	expanded = np.expand_dims(n_layer_cross_k, axis=2)
	# 使用tile替代repeat，性能更好
	tiled = np.tile(expanded, (1, 1, beam_size, 1, 1))
	# 重塑形状
	reshaped = tiled.reshape(num_layer, beam_size * batch_size, Ti, encoder_out_dim)

	return reshaped


	class FireRedASRAxModel:
	def __init__(self,
	encoder_path: str,
	decoder_loop_path: str,
	cmvn_file: str,
	dict_file: str,
	spm_model_path: str,
	providers=["AxEngineExecutionProvider"],
	decode_max_len=128,
	audio_dur=10):
	# NOTE: 参考whisper设置的最大的解码长度
	# FireRedASR-AED 模型支持的最长语音为 60s
	# ref: https://github.com/FireRedTeam/FireRedASR?tab=readme-ov-file#input-length-limitations
	self.decode_max_len = decode_max_len
	self.sample_rate = 16000
	self.decoder_hidden_dim = 1280
	self.audio_dur = audio_dur
	self.max_feat_len = self.calc_feat_len(audio_dur)
	self.num_decoder_blocks = 16
	self.blank_id = 0
	self.sos_id = 3
	self.eos_id = 4
	self.pad_id = 2

	self.feature_extractor = ASRFeatExtractor(cmvn_file)
	self.tokenizer = ChineseCharEnglishSpmTokenizer(dict_file, spm_model_path)

	self.init_encoder(encoder_path, providers)
	self.init_decoder_loop(decoder_loop_path, providers)
	self.pe = self.init_pe(decoder_loop_path)

	self.vad_model = load_silero_vad()

	# 预分配内存
	self._preallocated_memory()
	# 启用CUDA如果可用
	self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
	# print(f"Using device: {self.device}")

	def calc_feat_len(self, audio_dur):
	import math

	sample_rate = self.sample_rate
	frame_length = 25 * sample_rate / 1000
	frame_shift = 10 * sample_rate / 1000
	length = math.floor((audio_dur * sample_rate - frame_length) / frame_shift) + 1
	return length

	def init_encoder(self, encoder_path, providers=None):
	self.encoder = axe.InferenceSession(encoder_path, providers=providers)

	def init_decoder_loop(self, decoder_path, providers=None):
	self.decoder_loop = axe.InferenceSession(decoder_path, providers=providers)

	def init_pe(self, decoder_path):
	decoder_path = os.path.dirname(decoder_path)
	decoder_path = os.path.join(decoder_path, "pe.npy")

	return np.load(decoder_path)

	def run_encoder(
	self, input: np.ndarray, input_length: np.ndarray
	) -> Tuple[Tensor, Tensor, Tensor]:
	n_layer_cross_k, n_layer_cross_v, cross_attn_mask = self.encoder.run(
	None, {"encoder_input": input, "encoder_input_lengths": input_length}
	)
	return (n_layer_cross_k, n_layer_cross_v, cross_attn_mask)

	def decode_loop_one_token(
	self,
	tokens: np.ndarray,
	n_layer_self_k_cache: np.ndarray,
	n_layer_self_v_cache: np.ndarray,
	n_layer_cross_k_cache: np.ndarray,
	n_layer_cross_v_cache: np.ndarray,
	pe: np.ndarray,
	self_attn_mask: np.ndarray,
	cross_attn_mask: np.ndarray,
	) -> Tuple[Tensor, Tensor, Tensor]:
	(
	logits,
	out_n_layer_self_k_cache,
	out_n_layer_self_v_cache,
	) = self.decoder_loop.run(
	None,
	{
	"tokens": tokens,
	"in_n_layer_self_k_cache": n_layer_self_k_cache,
	"in_n_layer_self_v_cache": n_layer_self_v_cache,
	"n_layer_cross_k": n_layer_cross_k_cache,
	"n_layer_cross_v": n_layer_cross_v_cache,
	"pe": pe,
	"self_attn_mask": self_attn_mask,
	"cross_attn_mask": cross_attn_mask,
	},
	)
	return (logits, out_n_layer_self_k_cache, out_n_layer_self_v_cache)

	def _preallocated_memory(self):
	"""预分配常用内存空间"""
	# 预计算self_attn_mask模板
	self.self_attn_mask_templates = {}
	for offset in range(self.decode_max_len):
	mask = np.zeros((1, 1, self.decode_max_len), dtype=np.float32)
	mask[:, :, :self.decode_max_len - offset - 1] = -np.inf
	self.self_attn_mask_templates[offset] = mask

	# 预分配beam search的scores模板
	self.beam_scores_template = torch.tensor(
	[0.0] + [-INF] * (self.decode_max_len - 1)
	).float()

	def transcribe(
	self,
	batch_wav_path: List[str],
	beam_size: int = 1,
	nbest: int = 1,
	use_parallel: bool = False
	) -> List[Dict]:
	"""优化后的转录方法"""

	# 1. 优化VAD和分块处理
	chunks = self._optimized_vad_split(batch_wav_path[0])

	if use_parallel and len(chunks) > 1:
	return self._parallel_transcribe(chunks, beam_size, nbest)
	else:
	return self._sequential_transcribe(chunks, beam_size, nbest)

	def _optimized_vad_split(self, wav_path: str) -> List[torch.Tensor]:
	"""优化的VAD分块处理"""
	import torchaudio

	# 直接读取为numpy数组，避免torchaudio开销
	try:
	wav, sr = torchaudio.load(wav_path)
	if sr != self.sample_rate:
	wav = torchaudio.functional.resample(wav, sr, self.sample_rate)
	except:
	# 使用silero_vad的read_audio作为备选
	from silero_vad import read_audio
	wav = read_audio(wav_path, sampling_rate=self.sample_rate)
	wav = wav.unsqueeze(0)

	wav = wav.squeeze(0)

	# 快速VAD：如果音频较短，直接返回
	max_chunk_samples = int(self.sample_rate * self.audio_dur)
	if wav.shape[0] < max_chunk_samples:
	return [wav]

	# 使用优化的VAD参数
	speech_timestamps = get_speech_timestamps(
	wav,
	self.vad_model,
	threshold=0.5, # 提高阈值，减少静音检测
	min_speech_duration_ms=250, # 最小语音段
	min_silence_duration_ms=100, # 最小静音段
	return_seconds=False,
	)

	# 优化的分块合并算法
	return self._optimized_collect_chunks(wav, speech_timestamps)

	def _optimized_collect_chunks(
	self,
	wav: torch.Tensor,
	speech_timestamps: List[Dict]
	) -> List[torch.Tensor]:
	"""优化的分块合并算法"""
	max_chunk_samples = int(self.sample_rate * self.audio_dur)
	chunks = []
	current_chunk = []
	current_length = 0

	for ts in speech_timestamps:
	start, end = ts["start"], ts["end"]
	chunk_length = end - start

	if current_length + chunk_length <= max_chunk_samples:
	current_chunk.append((start, end))
	current_length += chunk_length
	else:
	if current_chunk:
	# 合并当前chunk
	merged = torch.cat([wav[s:e] for s, e in current_chunk])
	chunks.append(merged)

	if chunk_length > max_chunk_samples:
	# 大chunk分割
	num_splits = (chunk_length + max_chunk_samples - 1) // max_chunk_samples
	for i in range(num_splits):
	s = start + i * max_chunk_samples
	e = min(start + (i + 1) * max_chunk_samples, end)
	chunks.append(wav[s:e])
	current_chunk = []
	current_length = 0
	else:
	current_chunk = [(start, end)]
	current_length = chunk_length

	# 处理最后一个chunk
	if current_chunk:
	merged = torch.cat([wav[s:e] for s, e in current_chunk])
	chunks.append(merged)

	return chunks

	def _optimized_decode_loop(
	self,
	n_layer_cross_k: np.ndarray,
	n_layer_cross_v: np.ndarray,
	cross_attn_mask: np.ndarray,
	beam_size: int,
	nbest: int
	) -> List[Dict]:
	"""优化的解码循环"""

	num_layer, batch_size, Ti, encoder_out_dim = n_layer_cross_k.shape
	encoder_out_length = cross_attn_mask.shape[-1]

	n_layer_cross_k = expand_for_beam_search(n_layer_cross_k, beam_size)
	n_layer_cross_v = expand_for_beam_search(n_layer_cross_v, beam_size)

	batch_size, Ti, encoder_out_length = cross_attn_mask.shape

	# 在第1维插入新维度
	expanded = np.expand_dims(cross_attn_mask, axis=1)
	# 使用tile替代repeat，性能更好
	tiled = np.tile(expanded, (1, beam_size, 1, 1))
	# 重塑形状
	cross_attn_mask = tiled.reshape(beam_size * batch_size, Ti, encoder_out_length)

	# 优化的cache初始化
	n_layer_self_k_cache, n_layer_self_v_cache = self._optimized_init_self_cache(
	batch_size, beam_size
	)

	# 预分配tokens和scores
	tokens = torch.full(
	(beam_size * batch_size, 1),
	self.sos_id,
	dtype=torch.int32, device=self.device
	)
	scores = self.beam_scores_template[:beam_size].repeat(batch_size).view(
	batch_size * beam_size, 1
	).to(self.device)
	is_finished = torch.zeros_like(scores, dtype=torch.bool, device=self.device)

	# 预分配prediction_tokens
	prediction_tokens = tokens.clone()

	pe_np = self.pe

	for offset in range(self.decode_max_len):
	# 使用预计算的mask模板
	self_attn_mask = np.repeat(
	self.self_attn_mask_templates[offset],
	beam_size * batch_size,
	axis=0
	)

	# 直接使用numpy数组，避免转换
	logits, n_layer_self_k_cache, n_layer_self_v_cache = (
	self.decode_loop_one_token(
	tokens.cpu().numpy().astype(np.int32),
	n_layer_self_k_cache,
	n_layer_self_v_cache,
	n_layer_cross_k,
	n_layer_cross_v,
	pe_np[offset],
	self_attn_mask,
	cross_attn_mask
	)
	)

	logits = torch.from_numpy(logits).to(self.device).squeeze(1)
	t_scores = F.log_softmax(logits, dim=-1)

	# 优化的beam search
	tokens, scores, prediction_tokens, n_layer_self_k_cache, n_layer_self_v_cache, is_finished = (
	self._optimized_beam_search(
	t_scores, tokens, scores, prediction_tokens,
	n_layer_self_k_cache, n_layer_self_v_cache,
	is_finished, beam_size, batch_size
	)
	)

	if is_finished.all():
	break

	# return self._extract_results(scores, prediction_tokens, batch_size, beam_size, nbest)
	return self.extract_results_numpy_vectorized(scores.numpy(), prediction_tokens.numpy(), batch_size, beam_size, nbest)


	def _optimized_beam_search(
	self,
	t_scores: torch.Tensor,
	tokens: torch.Tensor,
	scores: torch.Tensor,
	prediction_tokens: torch.Tensor,
	n_layer_self_k_cache: torch.Tensor,
	n_layer_self_v_cache: torch.Tensor,
	is_finished: torch.Tensor,
	beam_size: int,
	batch_size: int
	) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
	"""优化的beam search步骤"""

	# 使用torch的in-place操作
	t_topB_scores, t_topB_ys = torch.topk(t_scores, k=beam_size, dim=1)

	# 处理已完成的beam
	if is_finished.any():
	# 原地操作，避免创建新tensor
	t_topB_scores.masked_fill_(is_finished, 0.0)
	t_topB_scores[:, 1:].masked_fill_(is_finished, -INF)
	t_topB_ys.masked_fill_(is_finished, self.eos_id)

	# 更新scores
	scores = scores + t_topB_scores

	# 优化的topk选择
	scores_2d = scores.view(batch_size, beam_size * beam_size)
	top_scores, top_ids = torch.topk(scores_2d, k=beam_size, dim=1)
	scores = top_scores.view(-1, 1)

	# 计算索引
	topB_row_number_in_each_B_rows_of_ys = torch.div(top_ids, beam_size, rounding_mode='floor')
	stride = beam_size * torch.arange(batch_size, device=self.device).view(batch_size, 1)
	topB_row_number_in_ys = (topB_row_number_in_each_B_rows_of_ys + stride).view(-1)

	# 更新tokens和prediction_tokens
	tokens = torch.gather(
	t_topB_ys.view(batch_size, beam_size * beam_size),
	dim=1,
	index=top_ids,
	).view(beam_size * batch_size, 1)

	prediction_tokens = torch.cat([
	prediction_tokens[topB_row_number_in_ys],
	tokens
	], dim=1)

	# 更新cache（原地操作）
	for i in range(n_layer_self_k_cache.shape[0]):
	n_layer_self_k_cache[i] = n_layer_self_k_cache[i][topB_row_number_in_ys]
	n_layer_self_v_cache[i] = n_layer_self_v_cache[i][topB_row_number_in_ys]

	# 更新完成状态
	is_finished = tokens.eq(self.eos_id)

	return tokens, scores, prediction_tokens, n_layer_self_k_cache, n_layer_self_v_cache, is_finished

	def _optimized_init_self_cache(
	self, batch_size: int, beam_size: int
	) -> Tuple[torch.Tensor, torch.Tensor]:
	"""优化的self cache初始化"""
	shape = (
	self.num_decoder_blocks,
	batch_size * beam_size,
	self.decode_max_len,
	self.decoder_hidden_dim
	)
	n_layer_self_k_cache = np.zeros(shape, dtype=np.float32)
	n_layer_self_v_cache = np.zeros(shape, dtype=np.float32)
	return n_layer_self_k_cache, n_layer_self_v_cache

	def _extract_results(
	self,
	scores: torch.Tensor,
	prediction_tokens: torch.Tensor,
	batch_size: int,
	beam_size: int,
	nbest: int
	) -> List[Dict]:
	"""提取结果"""
	scores = scores.view(batch_size, beam_size)
	valid_lengths = torch.sum(
	torch.ne(prediction_tokens.view(batch_size, beam_size, -1), self.eos_id),
	dim=-1
	).int()

	nbest_scores, nbest_ids = torch.topk(scores, k=nbest, dim=1)
	index = nbest_ids + beam_size * torch.arange(batch_size, device=self.device).unsqueeze(1)

	nbest_tokens = prediction_tokens.view(batch_size * beam_size, -1)[index.view(-1)]
	nbest_tokens = nbest_tokens.view(batch_size, nbest_ids.size(1), -1)

	results = []
	for j, score in enumerate(nbest_scores[0]):
	hyp = {
	"token_ids": nbest_tokens[0, j, 1:valid_lengths[0, nbest_ids[0, j]]],
	"score": score,
	}
	results.append(hyp)

	return results


	def extract_results_numpy_vectorized(
	self,
	scores: np.ndarray,
	prediction_tokens: np.ndarray,
	batch_size: int,
	beam_size: int,
	nbest: int,
	eos_id: int = 4
	) -> List[Dict]:
	"""向量化版本的NumPy实现"""

	# 1. 重塑和计算有效长度
	scores_2d = scores.reshape(batch_size, beam_size)
	tokens_3d = prediction_tokens.reshape(batch_size, beam_size, -1)

	# 计算有效长度（不包括eos_id）
	valid_lengths = np.sum(tokens_3d != eos_id, axis=-1).astype(np.int32)

	# 2. 使用argpartition进行部分排序（比argsort更快）
	# 获取最大的nbest个元素的索引
	# 使用argpartition: O(n) vs argsort: O(n log n)
	partitioned_indices = np.argpartition(-scores_2d, nbest-1, axis=1)[:, :nbest]

	# 对每个batch内的topk进行排序
	nbest_scores = np.take_along_axis(scores_2d, partitioned_indices, axis=1)
	sorted_order = np.argsort(-nbest_scores, axis=1)

	# 应用排序
	nbest_ids = np.take_along_axis(partitioned_indices, sorted_order, axis=1)
	nbest_scores = np.take_along_axis(nbest_scores, sorted_order, axis=1)

	# 3. 计算全局索引
	batch_indices = np.arange(batch_size)[:, np.newaxis]
	global_indices = nbest_ids + beam_size * batch_indices
	flat_global_indices = global_indices.reshape(-1)

	# 4. 提取tokens
	flat_tokens = prediction_tokens.reshape(-1, prediction_tokens.shape[-1])
	nbest_tokens = flat_tokens[flat_global_indices]
	nbest_tokens = nbest_tokens.reshape(batch_size, nbest, -1)

	# 5. 提取对应的有效长度
	nbest_valid_lengths = np.take_along_axis(valid_lengths, nbest_ids, axis=1)

	# 6. 构建结果
	results = []

	for b in range(batch_size):
	batch_results = []
	for j in range(nbest):
	valid_len = nbest_valid_lengths[b, j]

	# 提取token_ids（跳过<sos>）
	token_ids = nbest_tokens[b, j, 1:valid_len]

	hyp = {
	"token_ids": token_ids.tolist(),
	"score": float(nbest_scores[b, j]),
	}
	batch_results.append(hyp)

	# 如果是批量处理，可以按batch返回
	# 这里假设batch_size=1，直接返回第一个batch的结果
	if b == 0:
	results = batch_results

	return results


	def _sequential_transcribe(
	self,
	chunks: List[torch.Tensor],
	beam_size: int,
	nbest: int
	) -> Dict:
	"""顺序转录（单线程）"""
	tokens = []
	wav_durations = []
	transcribe_duration = 0

	for chunk in chunks:
	# 优化的特征提取
	feats, lengths, wav_duration = self._optimized_feature_extraction(chunk)
	wav_durations.append(wav_duration)

	# 运行encoder和decoder
	start_time = time.time()
	n_layer_cross_k, n_layer_cross_v, cross_attn_mask = self.run_encoder(
	feats, lengths.numpy().astype(np.int32)
	)

	nbest_hyps = self._optimized_decode_loop(
	n_layer_cross_k, n_layer_cross_v, cross_attn_mask, beam_size, nbest
	)

	tokens.extend([int(id) for id in nbest_hyps[0]["token_ids"]])
	transcribe_duration += time.time() - start_time

	text = self.tokenizer.detokenize(tokens)
	return {"text": text}, wav_durations, transcribe_duration

	def _parallel_transcribe(
	self,
	chunks: List[torch.Tensor],
	beam_size: int,
	nbest: int
	) -> Dict:
	"""并行转录（多线程）"""
	import threading

	results = []
	lock = threading.Lock()

	def process_chunk(chunk_idx, chunk):
	try:
	# 特征提取
	feats, lengths, wav_duration = self._optimized_feature_extraction(chunk)

	# encoder
	n_layer_cross_k, n_layer_cross_v, cross_attn_mask = self.run_encoder(
	feats, lengths.astype(np.int32)
	)

	# decoder
	nbest_hyps = self._optimized_decode_loop(
	n_layer_cross_k, n_layer_cross_v, cross_attn_mask, beam_size, nbest
	)

	with lock:
	results.append({
	'chunk_idx': chunk_idx,
	'tokens': [int(id) for id in nbest_hyps[0]["token_ids"].cpu()],
	'duration': wav_duration
	})
	except Exception as e:
	print(f"Error processing chunk {chunk_idx}: {e}")

	# 使用ThreadPoolExecutor并行处理
	with ThreadPoolExecutor(max_workers=min(4, len(chunks))) as executor:
	futures = []
	for i, chunk in enumerate(chunks):
	future = executor.submit(process_chunk, i, chunk)
	futures.append(future)

	# 等待所有任务完成
	for future in as_completed(futures):
	future.result()

	# 合并结果
	results.sort(key=lambda x: x['chunk_idx'])
	tokens = []
	wav_durations = []

	for result in results:
	tokens.extend(result['tokens'])
	wav_durations.append(result['duration'])

	text = self.tokenizer.detokenize(tokens)
	return {"text": text}, wav_durations, 0 # 并行处理时间不好统计

	def _optimized_feature_extraction(
	self,
	chunk: torch.Tensor
	) -> Tuple[np.ndarray, np.ndarray, float]:
	"""优化的特征提取"""
	chunk = (chunk.clamp(-1, 1) * 32768).to(torch.int16)
	feats, lengths, wav_duration = self.feature_extractor.run_chunk(
	chunk, self.sample_rate
	)

	# 原地padding，避免创建新数组
	if feats.shape[1] < self.max_feat_len:
	pad_width = ((0, 0), (0, self.max_feat_len - feats.shape[1]), (0, 0))
	feats = np.pad(feats, pad_width, mode='constant', constant_values=0)

	feats = feats[:, :self.max_feat_len, :]
	lengths = np.minimum(lengths, self.max_feat_len)

	return feats, lengths, wav_duration