Spaces:

boffire
/

kabyle-semantic-toolkit

Running

App Files Files Community

boffire commited on 1 day ago

Commit

7a06b89

verified ·

1 Parent(s): 243e89b

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -47

app.py CHANGED Viewed

@@ -12,6 +12,7 @@ import numpy as np
 import pandas as pd
 from sentence_transformers import SentenceTransformer
 import torch.nn.functional as F
 # Load model once
 print("Loading model...")
@@ -46,32 +47,31 @@ def check_quality(en_text, kab_text):
     """Tab 1: Translation Quality Checker"""
     if not en_text.strip() or not kab_text.strip():
         return "Please enter both sentences", None
     emb = get_embeddings([en_text, kab_text])
     sim = F.cosine_similarity(emb[0].unsqueeze(0), emb[1].unsqueeze(0)).item()
     if sim > 0.85:
         quality = "Excellent match"
     elif sim > 0.6:
         quality = "Good match"
     else:
         quality = "Poor match"
-    result = "Similarity: " + str(round(sim, 4)) + "
-Quality: " + quality
     return result, sim
 def search_similar(query, top_k=5):
     """Tab 2: Semantic Search - fast because embeddings are pre-computed"""
     if not query.strip():
         return "Please enter a query"
     query_emb = get_embeddings([query])
     # Search both English and Kabyle sides
     scores = F.cosine_similarity(query_emb, SEARCH_EMBEDDINGS).cpu().numpy()
     top_indices = np.argsort(scores)[::-1][:top_k]
     results = []
     seen = set()
     for idx in top_indices:
@@ -79,66 +79,61 @@ def search_similar(query, top_k=5):
             pair = SEARCH_PAIRS[idx]
         else:
             pair = SEARCH_PAIRS[idx - len(SEARCH_PAIRS)]
         key = pair[0] + " || " + pair[1]
         if key not in seen:
             seen.add(key)
-            results.append(pair[1] + "
-  (EN: " + pair[0] + ") -- Score: " + str(round(scores[idx], 4)))
-    return "
-".join(results) if results else "No results found"
 def validate_csv(file):
     """Tab 3: Parallel Data Validator"""
     if file is None:
         return None, "Please upload a CSV file with 'en' and 'kab' columns"
     df = pd.read_csv(file.name)
     if "en" not in df.columns or "kab" not in df.columns:
         return None, "CSV must have 'en' and 'kab' columns"
     scores = []
     for _, row in df.iterrows():
         emb = get_embeddings([str(row["en"]), str(row["kab"])])
         sim = F.cosine_similarity(emb[0].unsqueeze(0), emb[1].unsqueeze(0)).item()
         scores.append(sim)
     df["similarity"] = scores
     df["quality"] = df["similarity"].apply(
         lambda s: "good" if s > 0.6 else "poor"
     )
     # Save result
     output_path = "/tmp/validated_pairs.csv"
     df.to_csv(output_path, index=False)
-    summary = "Processed " + str(len(df)) + " pairs
-"
-    summary += "Good quality: " + str(len(df[df["quality"]=="good"])) + "
-"
     summary += "Poor quality: " + str(len(df[df["quality"]=="poor"]))
     return output_path, summary
 # Build UI with Soft theme
 with gr.Blocks(title="Kabyle Semantic Toolkit", theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
     # Kabyle Semantic Toolkit
     Powered by [**boffire/kabyle-sentence-transformer-mpnet**](https://huggingface.co/boffire/kabyle-sentence-transformer-mpnet)
     This tool understands meaning, not just words. Use it to check translations,
     find similar sentences, or validate your parallel data.
     """)
     with gr.Tabs():
         # Tab 1: Quality Checker
         with gr.TabItem("Translation Quality"):
             gr.Markdown("Check if an English-Kabyle pair has similar meaning.")
             with gr.Row():
                 with gr.Column(scale=2):
                     en_input = gr.Textbox(
@@ -154,7 +149,7 @@ with gr.Blocks(title="Kabyle Semantic Toolkit", theme=gr.themes.Soft()) as demo:
                     with gr.Row():
                         clear_btn_1 = gr.Button("Clear", variant="secondary")
                         check_btn = gr.Button("Check Quality", variant="primary")
                 with gr.Column(scale=3):
                     result_text = gr.Textbox(
                         label="Result",
@@ -166,33 +161,33 @@ with gr.Blocks(title="Kabyle Semantic Toolkit", theme=gr.themes.Soft()) as demo:
                         label="Similarity Score",
                         interactive=False
                     )
             check_btn.click(
                 fn=check_quality,
                 inputs=[en_input, kab_input],
                 outputs=[result_text, score_bar]
             )
             gr.Examples(
                 examples=[
                     ["Hello!", "Azul!"],
                     ["The computer works.", "Aselkim iteddu."],
-                    ["I love you.", "Hemmleɣ-k."],
                     ["Hello!", "Aselkim iteddu."],
                 ],
                 inputs=[en_input, kab_input],
                 label="Try these examples"
             )
             clear_btn_1.click(
                 fn=lambda: ("", "", "", None),
                 outputs=[en_input, kab_input, result_text, score_bar]
             )
         # Tab 2: Similar Search
         with gr.TabItem("Similar Sentences"):
             gr.Markdown("Find Kabyle sentences similar to your query. Search index is pre-loaded for instant results.")
             with gr.Row():
                 with gr.Column(scale=2):
                     query_input = gr.Textbox(
@@ -209,35 +204,35 @@ with gr.Blocks(title="Kabyle Semantic Toolkit", theme=gr.themes.Soft()) as demo:
                     with gr.Row():
                         clear_btn_2 = gr.Button("Clear", variant="secondary")
                         search_btn = gr.Button("Search", variant="primary")
                 with gr.Column(scale=3):
                     search_output = gr.Textbox(
                         label="Results",
                         lines=10,
                         interactive=False
                     )
             search_btn.click(
                 fn=search_similar,
                 inputs=[query_input, top_k_slider],
                 outputs=search_output
             )
             gr.Examples(
                 examples=["How are you?", "Thank you", "Water is life"],
                 inputs=query_input,
                 label="Example queries"
             )
             clear_btn_2.click(
                 fn=lambda: ("", 5, ""),
                 outputs=[query_input, top_k_slider, search_output]
             )
         # Tab 3: Data Validator
         with gr.TabItem("Data Validator"):
             gr.Markdown("Upload a CSV with 'en' and 'kab' columns to validate alignment quality.")
             with gr.Row():
                 with gr.Column(scale=2):
                     file_input = gr.File(
@@ -245,7 +240,7 @@ with gr.Blocks(title="Kabyle Semantic Toolkit", theme=gr.themes.Soft()) as demo:
                         file_types=[".csv"]
                     )
                     validate_btn = gr.Button("Validate", variant="primary")
                 with gr.Column(scale=3):
                     summary_output = gr.Textbox(
                         label="Summary",
@@ -253,13 +248,13 @@ with gr.Blocks(title="Kabyle Semantic Toolkit", theme=gr.themes.Soft()) as demo:
                         interactive=False
                     )
                     download_output = gr.File(label="Download Results")
             validate_btn.click(
                 fn=validate_csv,
                 inputs=file_input,
                 outputs=[download_output, summary_output]
             )
     gr.Markdown("""
     ---
     **Related tools**:
@@ -268,4 +263,4 @@ with gr.Blocks(title="Kabyle Semantic Toolkit", theme=gr.themes.Soft()) as demo:
     """)
 if __name__ == "__main__":
-    demo.launch()

 import pandas as pd
 from sentence_transformers import SentenceTransformer
 import torch.nn.functional as F
+import os
 # Load model once
 print("Loading model...")
     """Tab 1: Translation Quality Checker"""
     if not en_text.strip() or not kab_text.strip():
         return "Please enter both sentences", None
     emb = get_embeddings([en_text, kab_text])
     sim = F.cosine_similarity(emb[0].unsqueeze(0), emb[1].unsqueeze(0)).item()
     if sim > 0.85:
         quality = "Excellent match"
     elif sim > 0.6:
         quality = "Good match"
     else:
         quality = "Poor match"
+    result = "Similarity: " + str(round(sim, 4)) + os.linesep + "Quality: " + quality
     return result, sim
 def search_similar(query, top_k=5):
     """Tab 2: Semantic Search - fast because embeddings are pre-computed"""
     if not query.strip():
         return "Please enter a query"
     query_emb = get_embeddings([query])
     # Search both English and Kabyle sides
     scores = F.cosine_similarity(query_emb, SEARCH_EMBEDDINGS).cpu().numpy()
     top_indices = np.argsort(scores)[::-1][:top_k]
     results = []
     seen = set()
     for idx in top_indices:
             pair = SEARCH_PAIRS[idx]
         else:
             pair = SEARCH_PAIRS[idx - len(SEARCH_PAIRS)]
         key = pair[0] + " || " + pair[1]
         if key not in seen:
             seen.add(key)
+            results.append(pair[1] + os.linesep + "  (EN: " + pair[0] + ") -- Score: " + str(round(scores[idx], 4)))
+    return (os.linesep + os.linesep).join(results) if results else "No results found"
 def validate_csv(file):
     """Tab 3: Parallel Data Validator"""
     if file is None:
         return None, "Please upload a CSV file with 'en' and 'kab' columns"
     df = pd.read_csv(file.name)
     if "en" not in df.columns or "kab" not in df.columns:
         return None, "CSV must have 'en' and 'kab' columns"
     scores = []
     for _, row in df.iterrows():
         emb = get_embeddings([str(row["en"]), str(row["kab"])])
         sim = F.cosine_similarity(emb[0].unsqueeze(0), emb[1].unsqueeze(0)).item()
         scores.append(sim)
     df["similarity"] = scores
     df["quality"] = df["similarity"].apply(
         lambda s: "good" if s > 0.6 else "poor"
     )
     # Save result
     output_path = "/tmp/validated_pairs.csv"
     df.to_csv(output_path, index=False)
+    summary = "Processed " + str(len(df)) + " pairs" + os.linesep
+    summary += "Good quality: " + str(len(df[df["quality"]=="good"])) + os.linesep
     summary += "Poor quality: " + str(len(df[df["quality"]=="poor"]))
     return output_path, summary
 # Build UI with Soft theme
 with gr.Blocks(title="Kabyle Semantic Toolkit", theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
     # Kabyle Semantic Toolkit
     Powered by [**boffire/kabyle-sentence-transformer-mpnet**](https://huggingface.co/boffire/kabyle-sentence-transformer-mpnet)
     This tool understands meaning, not just words. Use it to check translations,
     find similar sentences, or validate your parallel data.
     """)
     with gr.Tabs():
         # Tab 1: Quality Checker
         with gr.TabItem("Translation Quality"):
             gr.Markdown("Check if an English-Kabyle pair has similar meaning.")
             with gr.Row():
                 with gr.Column(scale=2):
                     en_input = gr.Textbox(
                     with gr.Row():
                         clear_btn_1 = gr.Button("Clear", variant="secondary")
                         check_btn = gr.Button("Check Quality", variant="primary")
                 with gr.Column(scale=3):
                     result_text = gr.Textbox(
                         label="Result",
                         label="Similarity Score",
                         interactive=False
                     )
             check_btn.click(
                 fn=check_quality,
                 inputs=[en_input, kab_input],
                 outputs=[result_text, score_bar]
             )
             gr.Examples(
                 examples=[
                     ["Hello!", "Azul!"],
                     ["The computer works.", "Aselkim iteddu."],
+                    ["I love you.", "Hemmleɣ-kent."],
                     ["Hello!", "Aselkim iteddu."],
                 ],
                 inputs=[en_input, kab_input],
                 label="Try these examples"
             )
             clear_btn_1.click(
                 fn=lambda: ("", "", "", None),
                 outputs=[en_input, kab_input, result_text, score_bar]
             )
         # Tab 2: Similar Search
         with gr.TabItem("Similar Sentences"):
             gr.Markdown("Find Kabyle sentences similar to your query. Search index is pre-loaded for instant results.")
             with gr.Row():
                 with gr.Column(scale=2):
                     query_input = gr.Textbox(
                     with gr.Row():
                         clear_btn_2 = gr.Button("Clear", variant="secondary")
                         search_btn = gr.Button("Search", variant="primary")
                 with gr.Column(scale=3):
                     search_output = gr.Textbox(
                         label="Results",
                         lines=10,
                         interactive=False
                     )
             search_btn.click(
                 fn=search_similar,
                 inputs=[query_input, top_k_slider],
                 outputs=search_output
             )
             gr.Examples(
                 examples=["How are you?", "Thank you", "Water is life"],
                 inputs=query_input,
                 label="Example queries"
             )
             clear_btn_2.click(
                 fn=lambda: ("", 5, ""),
                 outputs=[query_input, top_k_slider, search_output]
             )
         # Tab 3: Data Validator
         with gr.TabItem("Data Validator"):
             gr.Markdown("Upload a CSV with 'en' and 'kab' columns to validate alignment quality.")
             with gr.Row():
                 with gr.Column(scale=2):
                     file_input = gr.File(
                         file_types=[".csv"]
                     )
                     validate_btn = gr.Button("Validate", variant="primary")
                 with gr.Column(scale=3):
                     summary_output = gr.Textbox(
                         label="Summary",
                         interactive=False
                     )
                     download_output = gr.File(label="Download Results")
             validate_btn.click(
                 fn=validate_csv,
                 inputs=file_input,
                 outputs=[download_output, summary_output]
             )
     gr.Markdown("""
     ---
     **Related tools**:
     """)
 if __name__ == "__main__":
+    demo.launch()