Upload 14 files

a920b41 verified about 2 years ago

9.55 kB

	import io
	import re
	import base64
	import numpy as np
	import traceback
	from typing import Union

	from TTS.utils.synthesizer import Synthesizer
	from aksharamukha.transliterate import process as aksharamukha_xlit
	from scipy.io.wavfile import write as scipy_wav_write

	import nltk
	import pysbd

	from .models.common import Language
	from .models.request import TTSRequest
	from .models.response import AudioFile, AudioConfig, TTSResponse, TTSFailureResponse
	from .utils.text import TextNormalizer
	from .utils.paragraph_handler import ParagraphHandler
	from src.postprocessor import PostProcessor

	class TextToSpeechEngine:
	def __init__(
	self,
	models: dict,
	allow_transliteration: bool = True,
	enable_denoiser: bool = True,
	):
	self.models = models
	# TODO: Ability to instantiate models by accepting standard paths or auto-downloading

	code_mixed_found = False
	if allow_transliteration:
	# Initialize Indic-Xlit models for the languages corresponding to TTS models
	from ai4bharat.transliteration import XlitEngine
	xlit_langs = set()

	for lang in list(models):
	if lang == 'en':
	continue # No need of any Indic-transliteration for English

	if '+' in lang:
	# If it's a code-mixed model like Hinglish, we need Hindi Xlit for non-English words
	# TODO: Make it mandatory irrespective of `allow_transliteration` boolean
	lang = lang.split('+')[1]
	code_mixed_found = True
	xlit_langs.add(lang)

	self.xlit_engine = XlitEngine(xlit_langs, beam_width=6)
	else:
	self.xlit_engine = None

	self.text_normalizer = TextNormalizer()
	self.paragraph_handler = ParagraphHandler()
	self.sent_seg = pysbd.Segmenter(language="en", clean=True)

	self.orig_sr = 22050 # model.output_sample_rate
	self.enable_denoiser = enable_denoiser
	if enable_denoiser:
	from src.postprocessor import Denoiser
	self.target_sr = 16000
	self.denoiser = Denoiser(self.orig_sr, self.target_sr)
	else:
	self.target_sr = self.orig_sr

	self.post_processor = PostProcessor(self.target_sr)

	if code_mixed_found:
	# Dictionary of English words
	import enchant
	from enchant.tokenize import get_tokenizer

	self.enchant_dicts = {
	"en_US": enchant.Dict("en_US"),
	"en_GB": enchant.Dict("en_GB"),
	}
	self.enchant_tokenizer = get_tokenizer("en")

	def concatenate_chunks(self, wav: np.ndarray, wav_chunk: np.ndarray):
	# TODO: Move to utils
	if type(wav_chunk) != np.ndarray:
	wav_chunk = np.array(wav_chunk)
	if wav is None:
	return wav_chunk
	return np.concatenate([wav, wav_chunk])

	def infer_from_request(
	self,
	request: TTSRequest,
	transliterate_roman_to_native: bool = True
	) -> TTSResponse:

	config = request.config
	lang = config.language.sourceLanguage
	gender = config.gender

	# If there's no separate English model, use the Hinglish one
	if lang == "en" and lang not in self.models and "en+hi" in self.models:
	lang = "en+hi"

	if lang not in self.models:
	return TTSFailureResponse(status_text="Unsupported language!")

	if lang == "brx" and gender == "male":
	return TTSFailureResponse(status_text="Sorry, `male` speaker not supported for this language!")

	output_list = []

	for sentence in request.input:
	raw_audio = self.infer_from_text(sentence.source, lang, gender, transliterate_roman_to_native=transliterate_roman_to_native)
	# Convert PCM to WAV
	byte_io = io.BytesIO()
	scipy_wav_write(byte_io, self.target_sr, raw_audio)
	# Encode WAV fileobject as base64 for transmission via JSON
	encoded_bytes = base64.b64encode(byte_io.read())
	encoded_string = encoded_bytes.decode()
	speech_response = AudioFile(audioContent=encoded_string)

	output_list.append(speech_response)

	audio_config = AudioConfig(language=Language(sourceLanguage=lang))
	return TTSResponse(audio=output_list, config=audio_config)

	def infer_from_text(
	self,
	input_text: str,
	lang: str,
	speaker_name: str,
	transliterate_roman_to_native: bool = True
	) -> np.ndarray:

	# If there's no separate English model, use the Hinglish one
	if lang == "en" and lang not in self.models and "en+hi" in self.models:
	lang = "en+hi"

	input_text, primary_lang, secondary_lang = self.parse_langs_normalise_text(input_text, lang)

	wav = None
	paragraphs = self.paragraph_handler.split_text(input_text)

	for paragraph in paragraphs:
	paragraph = self.handle_transliteration(paragraph, primary_lang, transliterate_roman_to_native)
	paras = []
	for sent in self.sent_seg.segment(paragraph):
	if sent.strip() and not re.match(r'^[_\W]+$', sent.strip()):
	paras.append(sent.strip())
	paragraph = " ".join(paras)

	# Run Inference. TODO: Support for batch inference
	wav_chunk = self.models[lang].tts(paragraph, speaker_name=speaker_name, style_wav="")

	wav_chunk = self.postprocess_audio(wav_chunk, primary_lang, speaker_name)
	# Concatenate current chunk with previous audio outputs
	wav = self.concatenate_chunks(wav, wav_chunk)
	return wav

	def parse_langs_normalise_text(self, input_text: str, lang: str) -> Union[str, str, str]:
	# If there's no separate English model, use the Hinglish one if present
	if lang == "en" and lang not in self.models and "en+hi" in self.models:
	lang = "en+hi"

	if lang == "en+hi": # Hinglish (English+Hindi code-mixed)
	primary_lang, secondary_lang = lang.split('+')
	else:
	primary_lang = lang
	secondary_lang = None

	input_text = self.text_normalizer.normalize_text(input_text, primary_lang)
	if secondary_lang:
	# TODO: Write a proper `transliterate_native_words_using_eng_dictionary`
	input_text = self.transliterate_native_words_using_spell_checker(input_text, secondary_lang)

	return input_text, primary_lang, secondary_lang

	def handle_transliteration(self, input_text: str, primary_lang: str, transliterate_roman_to_native: bool) -> str:
	if transliterate_roman_to_native and primary_lang != 'en':
	input_text = self.transliterate_sentence(input_text, primary_lang)

	# Manipuri was trained using the Central-govt's Bangla script
	# So convert the words in native state-govt script to Eastern-Nagari
	if primary_lang == "mni":
	# TODO: Delete explicit-schwa
	input_text = aksharamukha_xlit("MeeteiMayek", "Bengali", input_text)
	return input_text

	def preprocess_text(
	self,
	input_text: str,
	lang: str,
	# speaker_name: str,
	transliterate_roman_to_native: bool = True
	) -> np.ndarray:

	input_text, primary_lang, secondary_lang = self.parse_langs_normalise_text(input_text, lang)
	input_text = self.handle_transliteration(input_text, primary_lang, transliterate_roman_to_native)
	return input_text

	def postprocess_audio(self, wav_chunk, primary_lang, speaker_name):
	if self.enable_denoiser:
	wav_chunk = self.denoiser.denoise(wav_chunk)
	wav_chunk = self.post_processor.process(wav_chunk, primary_lang, speaker_name)
	return wav_chunk

	def transliterate_native_words_using_spell_checker(self, input_text, lang):
	tokens = [result[0] for result in self.enchant_tokenizer(input_text)]
	pos_tags = [result[1] for result in nltk.tag.pos_tag(tokens)]

	# Transliterate non-English Roman words to Indic
	for word, pos_tag in zip(tokens, pos_tags):
	if pos_tag == "NNP" or pos_tag == "NNPS":
	# Enchant has many proper-nouns as well in its dictionary, don't know why.
	# So if it's a proper-noun, always nativize
	# FIXME: But NLTK's `averaged_perceptron_tagger` does not seem to be 100% accurate, it has false positives 🤦‍♂️
	pass
	elif self.enchant_dicts["en_US"].check(word) or self.enchant_dicts["en_GB"].check(word):
	# TODO: Merge British and American dicts into 1 somehow
	continue

	# Convert "Ram's" -> "Ram". TODO: Think what are the failure cases
	word = word.split("'")[0]

	transliterated_word = self.transliterate_sentence(word, lang)
	input_text = input_text.replace(word, transliterated_word, 1)
	return input_text

	def transliterate_sentence(self, input_text, lang):
	if not self.xlit_engine:
	return input_text

	if lang == "raj":
	lang = "hi" # Approximate

	return self.xlit_engine.translit_sentence(input_text, lang)