Spaces:

PCNUSMSE
/

transcript_service

Sleeping

App Files Files Community

transcript_service / src /services /paraformer_service.py

PCNUSMSE

Upload folder using huggingface_hub

4e37375 verified 6 months ago

raw

history blame contribute delete

17.4 kB

	"""Paraformer转录服务模块

	提供阿里云百炼平台Paraformer-v2模型的语音转录功能。
	"""

	import asyncio
	import json
	import time
	from typing import Dict, List, Optional, Tuple
	from enum import Enum
	import httpx
	from dashscope import audio

	from ..core.config import get_config
	from ..utils.logger import get_task_logger


	class TaskStatus(Enum):
	"""任务状态枚举"""
	PENDING = "PENDING"
	RUNNING = "RUNNING"
	SUCCEEDED = "SUCCEEDED"
	FAILED = "FAILED"
	CANCELLED = "CANCELLED"


	class ParaformerService:
	"""Paraformer转录服务"""

	def __init__(self):
	"""初始化Paraformer服务"""
	self.config = get_config()
	self.api_config = self.config.dashscope
	self.logger = get_task_logger(logger_name="transcript_service.api")

	# 设置API密钥
	audio.api_key = self.api_config.api_key

	async def submit_transcription_task(
	self,
	file_urls: List[str],
	task_id: str,
	paraformer_params: Optional[Dict] = None
	) -> Tuple[bool, str, Optional[str]]:
	"""提交转录任务

	Args:
	file_urls: 音频文件URL列表
	task_id: 任务ID
	paraformer_params: Paraformer额外参数

	Returns:
	(是否成功, 消息, API任务ID)
	"""
	try:
	self.logger.info(f"提交转录任务: {len(file_urls)} 个文件")

	# 准备请求参数
	transcription_params = {
	'model': self.api_config.model,
	'file_urls': file_urls
	}

	# 添加额外参数（如果提供）
	if paraformer_params:
	# 语言提示
	if 'language_hints' in paraformer_params and paraformer_params['language_hints']:
	transcription_params['language_hints'] = paraformer_params['language_hints']
	else:
	transcription_params['language_hints'] = self.api_config.language_hints

	# 音轨选择
	if 'channel_id' in paraformer_params and paraformer_params['channel_id']:
	transcription_params['channel_id'] = paraformer_params['channel_id']

	# 语气词过滤
	if 'disfluency_removal_enabled' in paraformer_params:
	transcription_params['disfluency_removal_enabled'] = paraformer_params['disfluency_removal_enabled']

	# 时间戳校准
	if 'timestamp_alignment_enabled' in paraformer_params:
	transcription_params['timestamp_alignment_enabled'] = paraformer_params['timestamp_alignment_enabled']

	# 说话人分离
	if 'diarization_enabled' in paraformer_params:
	transcription_params['diarization_enabled'] = paraformer_params['diarization_enabled']

	# 说话人数量
	if 'speaker_count' in paraformer_params and paraformer_params['speaker_count']:
	transcription_params['speaker_count'] = paraformer_params['speaker_count']

	# 热词ID v2
	if 'vocabulary_id' in paraformer_params and paraformer_params['vocabulary_id']:
	transcription_params['vocabulary_id'] = paraformer_params['vocabulary_id']

	# 热词ID v1
	if 'phrase_id' in paraformer_params and paraformer_params['phrase_id']:
	transcription_params['phrase_id'] = paraformer_params['phrase_id']

	# 敏感词过滤
	if 'special_word_filter' in paraformer_params and paraformer_params['special_word_filter']:
	transcription_params['special_word_filter'] = paraformer_params['special_word_filter']
	else:
	# 使用默认配置
	transcription_params['language_hints'] = self.api_config.language_hints

	# 记录最终参数用于调试
	self.logger.info(f"转录参数: {transcription_params}")

	# 调用API
	response = audio.asr.Transcription.async_call(**transcription_params)

	if response.status_code == 200:
	api_task_id = response.output.task_id
	self.logger.info(f"任务提交成功, API任务ID: {api_task_id}")
	return True, f"任务提交成功", api_task_id
	else:
	error_msg = f"API调用失败, 状态码: {response.status_code}, 错误: {response.message}"
	self.logger.error(error_msg)
	return False, error_msg, None

	except Exception as e:
	error_msg = f"提交转录任务时发生错误: {str(e)}"
	self.logger.exception(error_msg)
	return False, error_msg, None

	async def check_task_status(self, api_task_id: str) -> Tuple[TaskStatus, Optional[dict], Optional[str]]:
	"""检查任务状态

	Args:
	api_task_id: API任务ID

	Returns:
	(任务状态, 结果数据, 错误信息)
	"""
	try:
	response = audio.asr.Transcription.fetch(task=api_task_id)

	if response.status_code == 200:
	task_status = TaskStatus(response.output.task_status)

	if task_status == TaskStatus.SUCCEEDED:
	# 解析转录结果
	results = await self._parse_transcription_results(response.output.results)
	return task_status, results, None
	elif task_status == TaskStatus.FAILED:
	error_msg = getattr(response.output, 'message', '转录失败')
	return task_status, None, error_msg
	else:
	# 任务进行中
	return task_status, None, None
	else:
	error_msg = f"检查任务状态失败: {response.message}"
	self.logger.error(error_msg)
	return TaskStatus.FAILED, None, error_msg

	except Exception as e:
	error_msg = f"检查任务状态时发生错误: {str(e)}"
	self.logger.exception(error_msg)
	return TaskStatus.FAILED, None, error_msg

	async def process_audio_files(
	self,
	file_urls: List[str],
	task_id: str,
	paraformer_params: Optional[Dict] = None
	) -> Tuple[bool, Optional[dict], Optional[str]]:
	"""处理音频文件转录（完整流程）

	Args:
	file_urls: 音频文件URL列表
	task_id: 任务ID
	paraformer_params: Paraformer额外参数

	Returns:
	(是否成功, 转录结果, 错误信息)
	"""
	try:
	# 保存原始URL映射，用于结果处理
	self._original_urls = file_urls.copy()
	self.logger.info(f"保存原始URL: {self._original_urls}")

	# 1. 提交任务
	success, message, api_task_id = await self.submit_transcription_task(file_urls, task_id, paraformer_params)
	if not success:
	return False, None, message

	self.logger.info(f"开始监控任务状态: {api_task_id}")

	# 2. 监控任务状态
	max_wait_time = self.api_config.timeout
	check_interval = self.config.task.status_check_interval
	start_time = time.time()

	while time.time() - start_time < max_wait_time:
	status, results, error = await self.check_task_status(api_task_id)

	if status == TaskStatus.SUCCEEDED:
	self.logger.info(f"转录完成: {api_task_id}")
	return True, results, None
	elif status == TaskStatus.FAILED:
	self.logger.error(f"转录失败: {api_task_id}, 错误: {error}")
	return False, None, error
	elif status in [TaskStatus.PENDING, TaskStatus.RUNNING]:
	self.logger.debug(f"任务进行中: {api_task_id}, 状态: {status.value}")
	await asyncio.sleep(check_interval)
	else:
	error_msg = f"未知任务状态: {status}"
	self.logger.error(error_msg)
	return False, None, error_msg

	# 超时
	error_msg = f"任务超时: {api_task_id} (等待时间: {max_wait_time}秒)"
	self.logger.error(error_msg)
	return False, None, error_msg

	except Exception as e:
	error_msg = f"处理音频文件时发生错误: {str(e)}"
	self.logger.exception(error_msg)
	return False, None, error_msg

	async def _parse_transcription_results(self, results: List) -> dict:
	"""解析转录结果

	Args:
	results: API返回的结果列表

	Returns:
	解析后的结果字典
	"""
	parsed_results = {
	'transcriptions': [],
	'summary': {
	'total_files': len(results),
	'total_duration': 0,
	'total_text_length': 0,
	'languages_detected': set()
	}
	}

	for i, result in enumerate(results):
	try:
	# 使用原始URL而不是API返回的file_url
	original_url = ''
	if hasattr(self, '_original_urls') and i < len(self._original_urls):
	original_url = self._original_urls[i]
	self.logger.info(f"使用原始URL[{i}]: {original_url}")
	else:
	original_url = result.get('file_url', '')
	self.logger.warning(f"未找到原始URL[{i}]，使用API返回的URL: {original_url}")

	# 从transcription_url下载实际的转录结果
	transcription_text = ''
	duration = 0
	language = 'unknown'
	confidence = 0
	segments = []

	if result.get('subtask_status') == 'SUCCEEDED' and result.get('transcription_url'):
	try:
	# 下载转录结果
	async with httpx.AsyncClient() as client:
	response = await client.get(result['transcription_url'])
	if response.status_code == 200:
	transcription_data = response.json()
	# 根据实际返回的数据结构解析
	# 获取原始时长（毫秒）
	original_duration_ms = transcription_data.get('properties', {}).get('original_duration_in_milliseconds', 0)
	duration = original_duration_ms / 1000.0 # 转换为秒
	language = 'en' # 根据测试设置默认为英语

	# 从transcripts中提取文本
	transcription_text = ''
	all_sentences = []
	transcripts = transcription_data.get('transcripts', [])
	if transcripts:
	# 提取第一个transcript的文本
	first_transcript = transcripts[0]
	transcription_text = first_transcript.get('text', '')

	# 获取句子信息
	all_sentences = first_transcript.get('sentences', [])

	# 计算置信度平均值（如果有句子信息）
	confidence = 0
	if all_sentences:
	confidences = [sentence.get('confidence', 0) for sentence in all_sentences if 'confidence' in sentence]
	if confidences:
	confidence = sum(confidences) / len(confidences)
	else:
	self.logger.warning(f"下载转录结果失败，状态码: {response.status_code}")
	self.logger.warning(f"响应内容: {response.text}")
	except Exception as e:
	self.logger.warning(f"下载转录结果时发生错误: {str(e)}")

	transcription = {
	'file_url': original_url,
	'text': transcription_text,
	'duration': duration,
	'language': language,
	'confidence': confidence,
	'segments': segments
	}

	# 如果需要调试，保存API返回的原始file_url
	api_file_url = result.get('file_url', '')
	if api_file_url and api_file_url != original_url:
	transcription['api_file_url'] = api_file_url

	parsed_results['transcriptions'].append(transcription)

	# 更新摘要信息
	parsed_results['summary']['total_duration'] += transcription['duration']
	parsed_results['summary']['total_text_length'] += len(transcription['text'])
	parsed_results['summary']['languages_detected'].add(transcription['language'])

	except Exception as e:
	self.logger.warning(f"解析单个转录结果时发生错误: {str(e)}")
	# 添加错误的结果项
	original_url = ''
	if hasattr(self, '_original_urls') and i < len(self._original_urls):
	original_url = self._original_urls[i]

	parsed_results['transcriptions'].append({
	'file_url': original_url,
	'error': str(e),
	'raw_result': result
	})

	# 转换语言集合为列表
	parsed_results['summary']['languages_detected'] = list(parsed_results['summary']['languages_detected'])

	return parsed_results

	async def batch_process_with_retry(
	self,
	file_urls: List[str],
	task_id: str,
	paraformer_params: Optional[Dict] = None
	) -> Tuple[bool, Optional[dict], Optional[str]]:
	"""批量处理音频文件（带重试机制）

	Args:
	file_urls: 音频文件URL列表
	task_id: 任务ID
	paraformer_params: Paraformer额外参数

	Returns:
	(是否成功, 转录结果, 错误信息)
	"""
	max_retries = self.api_config.max_retries
	retry_delay = self.api_config.retry_delay

	for attempt in range(max_retries + 1):
	try:
	success, results, error = await self.process_audio_files(file_urls, task_id, paraformer_params)

	if success:
	return True, results, None

	# 如果是最后一次重试，返回错误
	if attempt == max_retries:
	return False, None, error

	# 等待后重试
	self.logger.warning(f"第 {attempt + 1} 次尝试失败，{retry_delay} 秒后重试: {error}")
	await asyncio.sleep(retry_delay * (attempt + 1)) # 递增延迟

	except Exception as e:
	error_msg = f"重试过程中发生错误: {str(e)}"
	self.logger.exception(error_msg)

	if attempt == max_retries:
	return False, None, error_msg

	await asyncio.sleep(retry_delay * (attempt + 1))

	return False, None, "重试次数已达上限"

	def get_service_info(self) -> dict:
	"""获取服务信息

	Returns:
	服务配置信息
	"""
	return {
	'model': self.api_config.model,
	'base_url': self.api_config.base_url,
	'timeout': self.api_config.timeout,
	'max_retries': self.api_config.max_retries,
	'retry_delay': self.api_config.retry_delay,
	'language_hints': self.api_config.language_hints,
	'status_check_interval': self.config.task.status_check_interval
	}


	# 全局Paraformer服务实例
	paraformer_service = ParaformerService()


	def get_paraformer_service() -> ParaformerService:
	"""获取Paraformer服务实例

	Returns:
	Paraformer服务实例
	"""
	return paraformer_service