Spaces:

Rafii
/

videovoice

Running on Zero

App Files Files Community

github-actions[bot] commited on about 1 month ago

Commit

96e0666

1 Parent(s): 1fa323e

deploy: switch to chatterbox requirements @ 0fae627

Browse files

Files changed (4) hide show

packages.txt +2 -0
server.py +15 -1
steps/lang/omnivoice_languages.py +652 -0
steps/s6_captions.py +1 -1

packages.txt CHANGED Viewed

@@ -1,2 +1,4 @@
 ffmpeg
 nodejs

 ffmpeg
 nodejs
+fonts-noto-core
+fonts-noto-cjk

server.py CHANGED Viewed

@@ -302,12 +302,24 @@ def _queue_status_for(job_id: str) -> str | None:
 def _config_languages() -> list[str]:
-    """Expose supported language names from the pipeline."""
     from pipeline import LANGUAGE_CODES
     return list(LANGUAGE_CODES.keys())
 async def _artifact_reaper_loop():
     """Delete stale per-job artifact directories from ARTIFACTS_ROOT."""
     while True:
@@ -563,6 +575,8 @@ async def config():
             "max_file_size_mb": MAX_FILE_SIZE_MB,
             "max_duration_sec": MAX_DURATION_SEC,
             "languages": _config_languages(),
             "tts_models": [TTS_ENGINE],
             "tts_engine": TTS_ENGINE,
         }

 def _config_languages() -> list[str]:
+    """Expose supported language names from the pipeline (Chatterbox set)."""
     from pipeline import LANGUAGE_CODES
     return list(LANGUAGE_CODES.keys())
+def _chatterbox_language_options() -> list[dict]:
+    from pipeline import LANGUAGE_CODES
+    return [{"name": name, "code": code} for name, code in LANGUAGE_CODES.items()]
+def _omnivoice_language_options() -> list[dict]:
+    from steps.lang.omnivoice_languages import OMNIVOICE_LANGUAGE_CODES
+    return [{"name": name, "code": code} for name, code in OMNIVOICE_LANGUAGE_CODES.items()]
 async def _artifact_reaper_loop():
     """Delete stale per-job artifact directories from ARTIFACTS_ROOT."""
     while True:
             "max_file_size_mb": MAX_FILE_SIZE_MB,
             "max_duration_sec": MAX_DURATION_SEC,
             "languages": _config_languages(),
+            "chatterbox_languages": _chatterbox_language_options(),
+            "omnivoice_languages": _omnivoice_language_options(),
             "tts_models": [TTS_ENGINE],
             "tts_engine": TTS_ENGINE,
         }

steps/lang/omnivoice_languages.py ADDED Viewed

	@@ -0,0 +1,652 @@

+# AUTO-GENERATED from k2-fsa/OmniVoice omnivoice/utils/lang_map.py
+# Source: https://github.com/k2-fsa/OmniVoice/blob/master/omnivoice/utils/lang_map.py
+"""Omnivoice-supported languages (display name -> Omnivoice language id)."""
+OMNIVOICE_LANGUAGE_CODES: dict[str, str] = {
+    "Abadi": "kbt",
+    "Abkhazian": "ab",
+    "Abron": "abr",
+    "Abua": "abn",
+    "Adamawa Fulfulde": "fub",
+    "Adyghe": "ady",
+    "Afade": "aal",
+    "Afrikaans": "af",
+    "Agwagwune": "yay",
+    "Aja (Benin)": "ajg",
+    "Akebu": "keu",
+    "Alago": "ala",
+    "Albanian": "sq",
+    "Algerian Arabic": "arq",
+    "Algerian Saharan Arabic": "aao",
+    "Ambo-Pasco Quechua": "qva",
+    "Ambonese Malay": "abs",
+    "Amdo Tibetan": "adx",
+    "Amharic": "am",
+    "Anaang": "anw",
+    "Angika": "anp",
+    "Antankarana Malagasy": "xmv",
+    "Aragonese": "an",
+    "Arbëreshë Albanian": "aae",
+    "Arequipa-La Unión Quechua": "qxu",
+    "Armenian": "hy",
+    "Ashe": "ahs",
+    "Ashéninka Perené": "prq",
+    "Askopan": "eiv",
+    "Assamese": "as",
+    "Asturian": "ast",
+    "Atayal": "tay",
+    "Awak": "awo",
+    "Ayacucho Quechua": "quy",
+    "Azerbaijani": "az",
+    "Baatonum": "bba",
+    "Bacama": "bcy",
+    "Bade": "bde",
+    "Bafia": "ksf",
+    "Bafut": "bfd",
+    "Bagirmi Fulfulde": "fui",
+    "Bago-Kusuntu": "bqg",
+    "Baharna Arabic": "abv",
+    "Bakoko": "bkh",
+    "Balanta-Ganja": "bjt",
+    "Balti": "bft",
+    "Bamenyam": "bce",
+    "Bamun": "bax",
+    "Bangwinji": "bsj",
+    "Banjar": "bjn",
+    "Bankon": "abb",
+    "Baoulé": "bci",
+    "Bara Malagasy": "bhr",
+    "Barok": "bjk",
+    "Basa (Cameroon)": "bas",
+    "Basa (Nigeria)": "bzw",
+    "Bashkir": "ba",
+    "Basque": "eu",
+    "Batak Mandailing": "btm",
+    "Batanga": "bnm",
+    "Bateri": "btv",
+    "Bats": "bbl",
+    "Bayot": "bda",
+    "Bebele": "beb",
+    "Belarusian": "be",
+    "Bengali": "bn",
+    "Betawi": "bew",
+    "Bhili": "bhb",
+    "Bhojpuri": "bho",
+    "Bilur": "bxf",
+    "Bima": "bhp",
+    "Bodo": "brx",
+    "Boghom": "bux",
+    "Bokyi": "bky",
+    "Bomu": "bmq",
+    "Bondei": "bou",
+    "Borgu Fulfulde": "fue",
+    "Bosnian": "bs",
+    "Brahui": "brh",
+    "Braj": "bra",
+    "Breton": "br",
+    "Buduma": "bdm",
+    "Buginese": "bug",
+    "Bukharic": "bhh",
+    "Bulgarian": "bg",
+    "Bulu (Cameroon)": "bum",
+    "Bundeli": "bns",
+    "Bunun": "bnn",
+    "Bura-Pabir": "bwr",
+    "Burak": "bys",
+    "Burmese": "my",
+    "Burushaski": "bsk",
+    "Cacaloxtepec Mixtec": "miu",
+    "Cajatambo North Lima Quechua": "qvl",
+    "Cakfem-Mushere": "cky",
+    "Cameroon Pidgin": "wes",
+    "Campidanese Sardinian": "sro",
+    "Cantonese": "yue",
+    "Catalan": "ca",
+    "Cebuano": "ceb",
+    "Cen": "cen",
+    "Central Kurdish": "ckb",
+    "Central Nahuatl": "nhn",
+    "Central Pame": "pbs",
+    "Central Pashto": "pst",
+    "Central Puebla Nahuatl": "ncx",
+    "Central Tarahumara": "tar",
+    "Central Yupik": "esu",
+    "Central-Eastern Niger Fulfulde": "fuq",
+    "Chadian Arabic": "shu",
+    "Chichewa": "ny",
+    "Chichicapan Zapotec": "zpv",
+    "Chiga": "cgg",
+    "Chimalapa Zoque": "zoh",
+    "Chimborazo Highland Quichua": "qug",
+    "Chinese": "zh",
+    "Chiquián Ancash Quechua": "qxa",
+    "Chitwania Tharu": "the",
+    "Chokwe": "cjk",
+    "Chuvash": "cv",
+    "Cibak": "ckl",
+    "Coastal Konjo": "kjc",
+    "Copainalá Zoque": "zoc",
+    "Cornish": "kw",
+    "Corongo Ancash Quechua": "qwa",
+    "Croatian": "hr",
+    "Cross River Mbembe": "mfn",
+    "Cuyamecalco Mixtec": "xtu",
+    "Czech": "cs",
+    "Dadiya": "dbd",
+    "Dagbani": "dag",
+    "Dameli": "dml",
+    "Danish": "da",
+    "Dargwa": "dar",
+    "Dazaga": "dzg",
+    "Deccan": "dcc",
+    "Degema": "deg",
+    "Dera (Nigeria)": "kna",
+    "Dghwede": "dgh",
+    "Dhatki": "mki",
+    "Dhivehi": "dv",
+    "Dhofari Arabic": "adf",
+    "Dijim-Bwilim": "cfa",
+    "Dogri": "dgo",
+    "Domaaki": "dmk",
+    "Dotyali": "dty",
+    "Duala": "dua",
+    "Dutch": "nl",
+    "DũYa": "ldb",
+    "Dyula": "dyu",
+    "Eastern Balochi": "bgp",
+    "Eastern Bolivian Guaraní": "gui",
+    "Eastern Egyptian Bedawi Arabic": "avl",
+    "Eastern Krahn": "kqo",
+    "Eastern Mari": "mhr",
+    "Eastern Yiddish": "ydd",
+    "Ebrié": "ebr",
+    "Eggon": "ego",
+    "Egyptian Arabic": "arz",
+    "Ejagham": "etu",
+    "Eleme": "elm",
+    "Eloyi": "afo",
+    "Embu": "ebu",
+    "English": "en",
+    "Erzya": "myv",
+    "Esan": "ish",
+    "Esperanto": "eo",
+    "Estonian": "et",
+    "Eton (Cameroon)": "eto",
+    "Ewondo": "ewo",
+    "Extremaduran": "ext",
+    "Fang (Equatorial Guinea)": "fan",
+    "Fanti": "fat",
+    "Farefare": "gur",
+    "Fe'fe'": "fmp",
+    "Filipino": "fil",
+    "Filomena Mata-Coahuitlán Totonac": "tlp",
+    "Finnish": "fi",
+    "Fipa": "fip",
+    "French": "fr",
+    "Fulah": "ff",
+    "Galician": "gl",
+    "Gambian Wolof": "wof",
+    "Ganda": "lg",
+    "Garhwali": "gbm",
+    "Gawar-Bati": "gwt",
+    "Gawri": "gwc",
+    "Gbagyi": "gbr",
+    "Gbari": "gby",
+    "Geji": "gyz",
+    "Gen": "gej",
+    "Georgian": "ka",
+    "German": "de",
+    "Geser-Gorom": "ges",
+    "Gheg Albanian": "aln",
+    "Ghomálá'": "bbj",
+    "Gidar": "gid",
+    "Glavda": "glw",
+    "Goan Konkani": "gom",
+    "Goaria": "gig",
+    "Goemai": "ank",
+    "Gola": "gol",
+    "Greek": "el",
+    "Guarani": "gn",
+    "Guduf-Gava": "gdf",
+    "Guerrero Amuzgo": "amu",
+    "Gujarati": "gu",
+    "Gujari": "gju",
+    "Gulf Arabic": "afb",
+    "Gurgula": "ggg",
+    "Gusii": "guz",
+    "Gusilay": "gsl",
+    "Gweno": "gwe",
+    "Güilá Zapotec": "ztu",
+    "Hadothi": "hoj",
+    "Hahon": "hah",
+    "Haitian": "ht",
+    "Hakha Chin": "cnh",
+    "Hakö": "hao",
+    "Halia": "hla",
+    "Hausa": "ha",
+    "Hawaiian": "haw",
+    "Hazaragi": "haz",
+    "Hebrew": "he",
+    "Hemba": "hem",
+    "Herero": "hz",
+    "Highland Konjo": "kjk",
+    "Hijazi Arabic": "acw",
+    "Hindi": "hi",
+    "Huarijio": "var",
+    "Huautla Mazatec": "mau",
+    "Huaxcaleca Nahuatl": "nhq",
+    "Huba": "hbb",
+    "Huitepec Mixtec": "mxs",
+    "Hula": "hul",
+    "Hungarian": "hu",
+    "Hunjara-Kaina Ke": "hkk",
+    "Hwana": "hwo",
+    "Ibibio": "ibb",
+    "Icelandic": "is",
+    "Idakho-Isukha-Tiriki": "ida",
+    "Idoma": "idu",
+    "Igbo": "ig",
+    "Igo": "ahl",
+    "Ikposo": "kpo",
+    "Ikwere": "ikw",
+    "Imbabura Highland Quichua": "qvi",
+    "Indonesian": "id",
+    "Indus Kohistani": "mvy",
+    "Interlingua (International Auxiliary Language Association)": "ia",
+    "Inupiaq": "ik",
+    "Irish": "ga",
+    "Iron Ossetic": "os",
+    "Isekiri": "its",
+    "Isoko": "iso",
+    "Italian": "it",
+    "Ito": "itw",
+    "Itzá": "itz",
+    "Ixtayutla Mixtec": "vmj",
+    "Izon": "ijc",
+    "Jambi Malay": "jax",
+    "Japanese": "ja",
+    "Jaqaru": "jqr",
+    "Jauja Wanca Quechua": "qxw",
+    "Jaunsari": "jns",
+    "Javanese": "jv",
+    "Jiba": "juo",
+    "Jju": "kaj",
+    "Judeo-Moroccan Arabic": "aju",
+    "Juxtlahuaca Mixtec": "vmc",
+    "Kabardian": "kbd",
+    "Kabras": "lkb",
+    "Kabuverdianu": "kea",
+    "Kabyle": "kab",
+    "Kachi Koli": "gjk",
+    "Kairak": "ckr",
+    "Kalabari": "ijn",
+    "Kalasha": "kls",
+    "Kalenjin": "kln",
+    "Kalkoti": "xka",
+    "Kamba": "kam",
+    "Kamo": "kcq",
+    "Kanauji": "bjj",
+    "Kanembu": "kbl",
+    "Kannada": "kn",
+    "Karekare": "kai",
+    "Kashmiri": "ks",
+    "Kathoriya Tharu": "tkt",
+    "Kati": "bsh",
+    "Kazakh": "kk",
+    "Keiyo": "eyo",
+    "Khams Tibetan": "khg",
+    "Khana": "ogo",
+    "Khetrani": "xhe",
+    "Khmer": "km",
+    "Khowar": "khw",
+    "Kinga": "zga",
+    "Kinnauri": "kfk",
+    "Kinyarwanda": "rw",
+    "Kirghiz": "ky",
+    "Kirya-Konzəl": "fkk",
+    "Kochila Tharu": "thq",
+    "Kohistani Shina": "plk",
+    "Kohumono": "bcs",
+    "Kok Borok": "trp",
+    "Kol (Papua New Guinea)": "kol",
+    "Kom (Cameroon)": "bkm",
+    "Koma": "kmy",
+    "Konkani": "knn",
+    "Konzo": "koo",
+    "Korean": "ko",
+    "Korwa": "kfp",
+    "Kota (India)": "kfe",
+    "Koti": "eko",
+    "Kuanua": "ksd",
+    "Kuanyama": "kj",
+    "Kui (India)": "uki",
+    "Kulung (Nigeria)": "bbu",
+    "Kuot": "kto",
+    "Kushi": "kuh",
+    "Kwambi": "kwm",
+    "Kwasio": "nmg",
+    "Lala-Roba": "lla",
+    "Lamang": "hia",
+    "Lao": "lo",
+    "Larike-Wakasihu": "alo",
+    "Lasi": "lss",
+    "Latgalian": "ltg",
+    "Latvian": "lv",
+    "Levantine Arabic": "apc",
+    "Liana-Seti": "ste",
+    "Liberia Kpelle": "xpe",
+    "Liberian English": "lir",
+    "Libyan Arabic": "ayl",
+    "Ligurian": "lij",
+    "Lijili": "mgi",
+    "Lingala": "ln",
+    "Lithuanian": "lt",
+    "Loarki": "lrk",
+    "Logooli": "rag",
+    "Logudorese Sardinian": "src",
+    "Loja Highland Quichua": "qvj",
+    "Loloda": "loa",
+    "Longuda": "lnu",
+    "Loxicha Zapotec": "ztp",
+    "Luba-Lulua": "lua",
+    "Luo": "luo",
+    "Lushai": "lus",
+    "Luxembourgish": "lb",
+    "Maasina Fulfulde": "ffm",
+    "Maba (Chad)": "mde",
+    "Macedo-Romanian": "rup",
+    "Macedonian": "mk",
+    "Mada (Cameroon)": "mxu",
+    "Mafa": "maf",
+    "Maithili": "mai",
+    "Malay": "ms",
+    "Malayalam": "ml",
+    "Mali": "gcc",
+    "Malinaltepec Me'phaa": "tcf",
+    "Maltese": "mt",
+    "Mandara": "tbf",
+    "Mandjak": "mfv",
+    "Manggarai": "mqy",
+    "Manipuri": "mni",
+    "Mansoanka": "msw",
+    "Manx": "gv",
+    "Maori": "mi",
+    "Marathi": "mr",
+    "Marghi Central": "mrt",
+    "Marghi South": "mfm",
+    "Maria (India)": "mrr",
+    "Marwari (Pakistan)": "mve",
+    "Masana": "mcn",
+    "Masikoro Malagasy": "msh",
+    "Matsés": "mcf",
+    "Mazaltepec Zapotec": "zpy",
+    "Mazatlán Mazatec": "vmz",
+    "Mazatlán Mixe": "mzl",
+    "Mbe": "mfo",
+    "Mbo (Cameroon)": "mbo",
+    "Mbum": "mdd",
+    "Medumba": "byv",
+    "Mekeo": "mek",
+    "Meru": "mer",
+    "Mesopotamian Arabic": "acm",
+    "Mewari": "mtr",
+    "Min Nan Chinese": "nan",
+    "Mingrelian": "xmf",
+    "Mitlatongo Mixtec": "vmm",
+    "Miya": "mkf",
+    "Mokpwe": "bri",
+    "Moksha": "mdf",
+    "Mom Jango": "ver",
+    "Mongolian": "mn",
+    "Moroccan Arabic": "ary",
+    "Motu": "meu",
+    "Mpiemo": "mcx",
+    "Mpumpong": "mgg",
+    "Mundang": "mua",
+    "Mungaka": "mhk",
+    "Musey": "mse",
+    "Musgu": "mug",
+    "Musi": "mui",
+    "Naba": "mne",
+    "Najdi Arabic": "ars",
+    "Nalik": "nal",
+    "Nawdm": "nmz",
+    "Ndonga": "ng",
+    "Neapolitan": "nap",
+    "Nepali": "npi",
+    "Ngamo": "nbh",
+    "Ngas": "anc",
+    "Ngiemboon": "nnh",
+    "Ngizim": "ngi",
+    "Ngomba": "jgo",
+    "Ngombale": "nla",
+    "Nigerian Fulfulde": "fuv",
+    "Nigerian Pidgin": "pcm",
+    "Nimadi": "noe",
+    "Nobiin": "fia",
+    "North Mesopotamian Arabic": "ayp",
+    "North Moluccan Malay": "max",
+    "Northern Betsimisaraka Malagasy": "bmm",
+    "Northern Hindko": "hno",
+    "Northern Kurdish": "kmr",
+    "Northern Pame": "pmq",
+    "Northern Pashto": "pbu",
+    "Northern Uzbek": "uzn",
+    "Northwest Gbaya": "gya",
+    "Norwegian": "no",
+    "Norwegian Bokmål": "nb",
+    "Norwegian Nynorsk": "nn",
+    "Notsi": "ncf",
+    "Nyankpa": "yes",
+    "Nyungwe": "nyu",
+    "Nzanyi": "nja",
+    "Nüpode Huitoto": "hux",
+    "Occitan": "oc",
+    "Od": "odk",
+    "Odia": "ory",
+    "Odual": "odu",
+    "Omani Arabic": "acx",
+    "Orizaba Nahuatl": "nlv",
+    "Orma": "orc",
+    "Ormuri": "oru",
+    "Oromo": "om",
+    "Pahari-Potwari": "phr",
+    "Paiwan": "pwn",
+    "Panjabi": "pa",
+    "Papuan Malay": "pmy",
+    "Parkari Koli": "kvx",
+    "Pedi": "nso",
+    "Pero": "pip",
+    "Persian": "fa",
+    "Petats": "pex",
+    "Phalura": "phl",
+    "Piemontese": "pms",
+    "Piya-Kwonci": "piy",
+    "Plateau Malagasy": "plt",
+    "Polish": "pl",
+    "Poqomam": "poc",
+    "Portuguese": "pt",
+    "Pulaar": "fuc",
+    "Pular": "fuf",
+    "Puno Quechua": "qxp",
+    "Pushto": "ps",
+    "Pökoot": "pko",
+    "Qaqet": "byx",
+    "Quiotepec Chinantec": "chq",
+    "Rana Tharu": "thr",
+    "Rangi": "lag",
+    "Rapoisi": "kyx",
+    "Ratahan": "rth",
+    "Rayón Zoque": "zor",
+    "Romanian": "ro",
+    "Romansh": "rm",
+    "Rombo": "rof",
+    "Rotokas": "roo",
+    "Rukai": "dru",
+    "Russian": "ru",
+    "Sacapulteco": "quv",
+    "Saidi Arabic": "aec",
+    "Sakalava Malagasy": "skg",
+    "Sakizaya": "szy",
+    "Saleman": "sau",
+    "Samba Daka": "ccg",
+    "Samba Leko": "ndi",
+    "San Felipe Otlaltepec Popoloca": "pow",
+    "San Francisco Del Mar Huave": "hue",
+    "San Juan Atzingo Popoloca": "poe",
+    "San Martín Itunyoso Triqui": "trq",
+    "San Miguel El Grande Mixtec": "mig",
+    "Sansi": "ssi",
+    "Sanskrit": "sa",
+    "Santa Ana de Tusi Pasco Quechua": "qxt",
+    "Santa Catarina Albarradas Zapotec": "ztn",
+    "Santali": "sat",
+    "Santiago del Estero Quichua": "qus",
+    "Saposa": "sps",
+    "Saraiki": "skr",
+    "Sardinian": "sc",
+    "Saya": "say",
+    "Sediq": "trv",
+    "Serbian": "sr",
+    "Seri": "sei",
+    "Shina": "scl",
+    "Shona": "sn",
+    "Siar-Lak": "sjr",
+    "Sibe": "nco",
+    "Sicilian": "scn",
+    "Sihuas Ancash Quechua": "qws",
+    "Sikkimese": "sip",
+    "Sinaugoro": "snc",
+    "Sindhi": "sd",
+    "Sindhi Bhil": "sbn",
+    "Sinhala": "si",
+    "Sinicahua Mixtec": "xti",
+    "Sipacapense": "qum",
+    "Siwai": "siw",
+    "Slovak": "sk",
+    "Slovenian": "sl",
+    "Solos": "sol",
+    "Somali": "so",
+    "Soninke": "snk",
+    "South Giziga": "giz",
+    "South Ucayali Ashéninka": "cpy",
+    "Southeastern Nochixtlán Mixtec": "mxy",
+    "Southern Betsimisaraka Malagasy": "bzc",
+    "Southern Pashto": "pbt",
+    "Southern Pastaza Quechua": "qup",
+    "Soyaltepec Mazatec": "vmp",
+    "Spanish": "es",
+    "Standard Arabic": "arb",
+    "Standard Moroccan Tamazight": "zgh",
+    "Sudanese Arabic": "apd",
+    "Sulka": "sua",
+    "Svan": "sva",
+    "Swahili": "sw",
+    "Swedish": "sv",
+    "Tae'": "rob",
+    "Tahaggart Tamahaq": "thv",
+    "Taita": "dav",
+    "Tajik": "tg",
+    "Tamil": "ta",
+    "Tandroy-Mahafaly Malagasy": "tdx",
+    "Tangale": "tan",
+    "Tanosy Malagasy": "txy",
+    "Tarok": "yer",
+    "Tatar": "tt",
+    "Tedaga": "tuq",
+    "Telugu": "te",
+    "Tem": "kdh",
+    "Teop": "tio",
+    "Tepeuxila Cuicatec": "cux",
+    "Tepinapa Chinantec": "cte",
+    "Tera": "ttr",
+    "Terei": "buo",
+    "Termanu": "twu",
+    "Tesaka Malagasy": "tkg",
+    "Tetelcingo Nahuatl": "nhg",
+    "Teutila Cuicatec": "cut",
+    "Thai": "th",
+    "Tibetan": "bo",
+    "Tidaá Mixtec": "mtx",
+    "Tidore": "tvo",
+    "Tigak": "tgc",
+    "Tigre": "tig",
+    "Tigrinya": "ti",
+    "Tilquiapan Zapotec": "zts",
+    "Tinputz": "tpz",
+    "Tlacoapa Me'phaa": "tpl",
+    "Tlacoatzintepec Chinantec": "ctl",
+    "Tlingit": "tli",
+    "Toki Pona": "tok",
+    "Tomoip": "tqp",
+    "Tondano": "tdn",
+    "Tonsea": "txs",
+    "Tooro": "ttj",
+    "Torau": "ttu",
+    "Torwali": "trw",
+    "Tsimihety Malagasy": "xmw",
+    "Tsotso": "lto",
+    "Tswana": "tn",
+    "Tugen": "tuy",
+    "Tuki": "bag",
+    "Tula": "tul",
+    "Tulu": "tcy",
+    "Tunen": "tvu",
+    "Tungag": "lcm",
+    "Tunisian Arabic": "aeb",
+    "Tupuri": "tui",
+    "Turkana": "tuv",
+    "Turkish": "tr",
+    "Turkmen": "tk",
+    "Tututepec Mixtec": "mtu",
+    "Twi": "tw",
+    "Ubaghara": "byc",
+    "Uighur": "ug",
+    "Ukrainian": "uk",
+    "Umbundu": "umb",
+    "Upper Sorbian": "hsb",
+    "Urdu": "ur",
+    "Ushojo": "ush",
+    "Uzbek": "uz",
+    "Vai": "vai",
+    "Vietnamese": "vi",
+    "Votic": "vot",
+    "Võro": "vro",
+    "Waci Gbe": "wci",
+    "Wadiyara Koli": "kxp",
+    "Waja": "wja",
+    "Wakhi": "wbl",
+    "Wanga": "lwg",
+    "Wapan": "juk",
+    "Warji": "wji",
+    "Welsh": "cy",
+    "Wemale": "weo",
+    "Western Frisian": "fy",
+    "Western Highland Purepecha": "pua",
+    "Western Juxtlahuaca Mixtec": "jmx",
+    "Western Maninkakan": "mlq",
+    "Western Mari": "mrj",
+    "Western Niger Fulfulde": "fuh",
+    "Western Panjabi": "pnb",
+    "Wolof": "wo",
+    "Wuzlam": "udl",
+    "Xanaguía Zapotec": "ztg",
+    "Xhosa": "xh",
+    "Yace": "ekr",
+    "Yakut": "sah",
+    "Yalahatan": "jal",
+    "Yanahuanca Pasco Quechua": "qur",
+    "Yangben": "yav",
+    "Yaqui": "yaq",
+    "Yauyos Quechua": "qux",
+    "Yekhee": "ets",
+    "Yiddish": "yi",
+    "Yidgha": "ydg",
+    "Yoruba": "yo",
+    "Yutanduchi Mixtec": "mab",
+    "Zacatlán-Ahuacatlán-Tepetzintla Nahuatl": "nhi",
+    "Zarma": "dje",
+    "Zaza": "zza",
+    "Zulu": "zu",
+    "Ömie": "aom",
+}

steps/s6_captions.py CHANGED Viewed

@@ -155,7 +155,7 @@ def generate_captions(
     wrap_style = 2 if is_rtl else 0
     # Tahoma has reliable Arabic/Urdu shaping across macOS/Windows/Linux ffmpeg
     # builds; Arial often lacks the glyph coverage on headless Linux.
-    font = "Tahoma" if is_rtl else "Arial"
     # Encoding 178 = Windows Arabic codepage — hints libass font selection.
     encoding = 178 if is_rtl else 0

     wrap_style = 2 if is_rtl else 0
     # Tahoma has reliable Arabic/Urdu shaping across macOS/Windows/Linux ffmpeg
     # builds; Arial often lacks the glyph coverage on headless Linux.
+    font = "Tahoma" if is_rtl else "Noto Sans"
     # Encoding 178 = Windows Arabic codepage — hints libass font selection.
     encoding = 178 if is_rtl else 0