Spaces:

hazardtln
/

eReader

Sleeping

App Files Files Community

hazardtln commited on 24 days ago

Commit

863559c

1 Parent(s): 72c5e69

Optimized server for concurrency and added full engine warmup

Browse files

Files changed (2) hide show

.gitignore +2 -0
App/backend/main.py +29 -6

.gitignore CHANGED Viewed

@@ -19,3 +19,5 @@ App/backend/*.wav
 .vscode
 .idea
 .DS_Store

 .vscode
 .idea
 .DS_Store
+# Test outputs
+test_outputs/

App/backend/main.py CHANGED Viewed

@@ -23,15 +23,25 @@ log = logging.getLogger("uvicorn.error")
 BACKEND_DIR = os.path.dirname(os.path.abspath(__file__))
 MODELS_DIR = os.path.join(BACKEND_DIR, "models")
-# Monkey-patch ONNX Runtime for better provider selection
 _original_inf_session = onnxruntime.InferenceSession
 def _patched_inf_session(path_or_bytes, sess_options=None, providers=None, *args, **kwargs):
     if providers is None or providers == ['CPUExecutionProvider']:
         available = onnxruntime.get_available_providers()
         preferred = [p for p in ['CUDAExecutionProvider', 'DmlExecutionProvider', 'CoreMLExecutionProvider'] if p in available]
         preferred.append('CPUExecutionProvider')
         providers = preferred
-    return _original_inf_session(path_or_bytes, sess_options, providers, *args, **kwargs)
 onnxruntime.InferenceSession = _patched_inf_session
 # Load engines lazily
@@ -101,11 +111,24 @@ def synthesize_supertonic(text: str, voice_id: str, speed: float = 1.0, quality:
 async def lifespan(app: FastAPI):
     log.info("Warming up TTS engines...")
     try:
-        # Warmup default piper
-        synthesize_piper("Ready.", "en_US-lessac-low", None)
-        log.info("Piper engine ready.")
     except Exception as e:
-        log.warning(f"Piper warmup failed: {e}")
     yield
 app = FastAPI(lifespan=lifespan)

 BACKEND_DIR = os.path.dirname(os.path.abspath(__file__))
 MODELS_DIR = os.path.join(BACKEND_DIR, "models")
+# Monkey-patch ONNX Runtime for better provider selection and thread management
 _original_inf_session = onnxruntime.InferenceSession
 def _patched_inf_session(path_or_bytes, sess_options=None, providers=None, *args, **kwargs):
+    if sess_options is None:
+        sess_options = onnxruntime.SessionOptions()
+    # Crucial for shared server environments: Limit threads per request to allow better
+    # concurrency without CPU lockup (especially on Hugging Face free spaces)
+    sess_options.intra_op_num_threads = 1
+    sess_options.inter_op_num_threads = 1
     if providers is None or providers == ['CPUExecutionProvider']:
         available = onnxruntime.get_available_providers()
+        # Prefer GPU if available
         preferred = [p for p in ['CUDAExecutionProvider', 'DmlExecutionProvider', 'CoreMLExecutionProvider'] if p in available]
         preferred.append('CPUExecutionProvider')
         providers = preferred
+    return _original_inf_session(path_or_bytes, sess_options=sess_options, providers=providers, *args, **kwargs)
 onnxruntime.InferenceSession = _patched_inf_session
 # Load engines lazily
 async def lifespan(app: FastAPI):
     log.info("Warming up TTS engines...")
     try:
+        # 1. Warm up Supertonic (Premium)
+        get_supertonic()
+        log.info("Supertonic engine ready.")
+        # 2. Warm up Standard Piper (US Female)
+        get_piper_voice("en_US-lessac-low")
+        log.info("Piper (standard) ready.")
+        # 3. Warm up Multi-speaker Piper (LibriTTS) - This is the default in UI
+        get_piper_voice("en_US-libritts_r-medium")
+        log.info("Piper (multi-speaker) ready.")
+        # 4. Perform a tiny synthesis to ensure inference graph is built
+        synthesize_piper("READY", "en_US-lessac-low", None)
+        log.info("All TTS engines fully primed.")
     except Exception as e:
+        log.warning(f"Engine warmup incomplete: {e}")
     yield
 app = FastAPI(lifespan=lifespan)