Spaces:

minhdang
/

code

Paused

App Files Files Community

minhdang commited on Mar 19, 2024

Commit

937ca11

verified ·

1 Parent(s): 27d059b

Update app.py

Browse files

Files changed (1) hide show

app.py +73 -0

app.py CHANGED Viewed

@@ -16,7 +16,79 @@ MAX_MAX_NEW_TOKENS = 2048
 DEFAULT_MAX_NEW_TOKENS = 1024
 total_count=0
 MAX_INPUT_TOKEN_LENGTH = int(os.getenv("MAX_INPUT_TOKEN_LENGTH", "4096"))
 DESCRIPTION="""CODE"""
@@ -43,6 +115,7 @@ def gen(
     print(total_count)
     os.system("nvidia-smi")
     conversation = []
     if system_prompt:
         conversation.append({"role": "system", "content": system_prompt})
     for user, assistant in chat_history:

 DEFAULT_MAX_NEW_TOKENS = 1024
 total_count=0
 MAX_INPUT_TOKEN_LENGTH = int(os.getenv("MAX_INPUT_TOKEN_LENGTH", "4096"))
+import gradio as gr
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+dict_map = {
+    "òa": "oà",
+    "Òa": "Oà",
+    "ÒA": "OÀ",
+    "óa": "oá",
+    "Óa": "Oá",
+    "ÓA": "OÁ",
+    "ỏa": "oả",
+    "Ỏa": "Oả",
+    "ỎA": "OẢ",
+    "õa": "oã",
+    "Õa": "Oã",
+    "ÕA": "OÃ",
+    "ọa": "oạ",
+    "Ọa": "Oạ",
+    "ỌA": "OẠ",
+    "òe": "oè",
+    "Òe": "Oè",
+    "ÒE": "OÈ",
+    "óe": "oé",
+    "Óe": "Oé",
+    "ÓE": "OÉ",
+    "ỏe": "oẻ",
+    "Ỏe": "Oẻ",
+    "ỎE": "OẺ",
+    "õe": "oẽ",
+    "Õe": "Oẽ",
+    "ÕE": "OẼ",
+    "ọe": "oẹ",
+    "Ọe": "Oẹ",
+    "ỌE": "OẸ",
+    "ùy": "uỳ",
+    "Ùy": "Uỳ",
+    "ÙY": "UỲ",
+    "úy": "uý",
+    "Úy": "Uý",
+    "ÚY": "UÝ",
+    "ủy": "uỷ",
+    "Ủy": "Uỷ",
+    "ỦY": "UỶ",
+    "ũy": "uỹ",
+    "Ũy": "Uỹ",
+    "ŨY": "UỸ",
+    "ụy": "uỵ",
+    "Ụy": "Uỵ",
+    "ỤY": "UỴ",
+    }
+tokenizer_vi2en = AutoTokenizer.from_pretrained("vinai/vinai-translate-vi2en-v2", src_lang="vi_VN")
+model_vi2en = AutoModelForSeq2SeqLM.from_pretrained("vinai/vinai-translate-vi2en-v2")
+def translate_vi2en(vi_text: str) -> str:
+    for i, j in dict_map.items():
+        vi_text = vi_text.replace(i, j)
+    input_ids = tokenizer_vi2en(vi_text, return_tensors="pt").input_ids
+    output_ids = model_vi2en.generate(
+        input_ids,
+        decoder_start_token_id=tokenizer_vi2en.lang_code_to_id["en_XX"],
+        num_return_sequences=1,
+        # # With sampling
+        # do_sample=True,
+        # top_k=100,
+        # top_p=0.8,
+        # With beam search
+        num_beams=5,
+        early_stopping=True
+    )
+    en_text = tokenizer_vi2en.batch_decode(output_ids, skip_special_tokens=True)
+    en_text = " ".join(en_text)
+    return en_text
 DESCRIPTION="""CODE"""
     print(total_count)
     os.system("nvidia-smi")
     conversation = []
+    message = translate_vi2en(message)
     if system_prompt:
         conversation.append({"role": "system", "content": system_prompt})
     for user, assistant in chat_history: