Spaces:

boffire
/

kabyle-semantic-toolkit

Running

App Files Files Community

boffire commited on 1 day ago

Commit

243e89b

verified ·

1 Parent(s): 669fa24

Update app.py

Browse files

Files changed (1) hide show

app.py +131 -74

app.py CHANGED Viewed

@@ -18,13 +18,14 @@ print("Loading model...")
 MODEL = SentenceTransformer("boffire/kabyle-sentence-transformer-mpnet")
 print("Model loaded")
-# Pre-load Tatoeba index for search
-print("Loading search index...")
 try:
     from datasets import load_dataset
     ds = load_dataset("Imsidag-community/english-kabyle-parallel", split="train")
-    SEARCH_PAIRS = [(row["en"], row["kab"]) for row in ds.select(range(min(1000, len(ds))))]
-except:
     SEARCH_PAIRS = [
         ("Hello!", "Azul!"),
         ("How are you?", "Amek i telliḍ?"),
@@ -33,7 +34,10 @@ except:
         ("Water is life", "Aman d tudert"),
     ]
-SEARCH_EMBEDDINGS = None
 def get_embeddings(texts):
     return MODEL.encode(texts, convert_to_tensor=True)
@@ -42,37 +46,32 @@ def check_quality(en_text, kab_text):
     """Tab 1: Translation Quality Checker"""
     if not en_text.strip() or not kab_text.strip():
         return "Please enter both sentences", None
     emb = get_embeddings([en_text, kab_text])
     sim = F.cosine_similarity(emb[0].unsqueeze(0), emb[1].unsqueeze(0)).item()
     if sim > 0.85:
         quality = "Excellent match"
     elif sim > 0.6:
         quality = "Good match"
     else:
         quality = "Poor match"
-    result = "Similarity: " + str(round(sim, 4)) + "\nQuality: " + quality
     return result, sim
 def search_similar(query, top_k=5):
-    """Tab 2: Semantic Search"""
-    global SEARCH_EMBEDDINGS
     if not query.strip():
         return "Please enter a query"
-    if SEARCH_EMBEDDINGS is None:
-        all_texts = [en for en, _ in SEARCH_PAIRS] + [kab for _, kab in SEARCH_PAIRS]
-        SEARCH_EMBEDDINGS = get_embeddings(all_texts)
     query_emb = get_embeddings([query])
     # Search both English and Kabyle sides
     scores = F.cosine_similarity(query_emb, SEARCH_EMBEDDINGS).cpu().numpy()
     top_indices = np.argsort(scores)[::-1][:top_k]
     results = []
     seen = set()
     for idx in top_indices:
@@ -80,77 +79,100 @@ def search_similar(query, top_k=5):
             pair = SEARCH_PAIRS[idx]
         else:
             pair = SEARCH_PAIRS[idx - len(SEARCH_PAIRS)]
         key = pair[0] + " || " + pair[1]
         if key not in seen:
             seen.add(key)
-            results.append(pair[1] + "\n  (EN: " + pair[0] + ") -- Score: " + str(round(scores[idx], 4)))
-    return "\n\n".join(results) if results else "No results found"
 def validate_csv(file):
     """Tab 3: Parallel Data Validator"""
     if file is None:
         return None, "Please upload a CSV file with 'en' and 'kab' columns"
     df = pd.read_csv(file.name)
     if "en" not in df.columns or "kab" not in df.columns:
         return None, "CSV must have 'en' and 'kab' columns"
     scores = []
     for _, row in df.iterrows():
         emb = get_embeddings([str(row["en"]), str(row["kab"])])
         sim = F.cosine_similarity(emb[0].unsqueeze(0), emb[1].unsqueeze(0)).item()
         scores.append(sim)
     df["similarity"] = scores
     df["quality"] = df["similarity"].apply(
         lambda s: "good" if s > 0.6 else "poor"
     )
     # Save result
     output_path = "/tmp/validated_pairs.csv"
     df.to_csv(output_path, index=False)
-    summary = "Processed " + str(len(df)) + " pairs\n"
-    summary += "Good quality: " + str(len(df[df["quality"]=="good"])) + "\n"
     summary += "Poor quality: " + str(len(df[df["quality"]=="poor"]))
     return output_path, summary
-# Build UI
-with gr.Blocks(title="Kabyle Semantic Toolkit") as demo:
     gr.Markdown("""
     # Kabyle Semantic Toolkit
-    Powered by **boffire/kabyle-sentence-transformer-mpnet**
-    This tool understands meaning, not just words. Use it to check translations,
     find similar sentences, or validate your parallel data.
     """)
     with gr.Tabs():
         # Tab 1: Quality Checker
         with gr.TabItem("Translation Quality"):
             gr.Markdown("Check if an English-Kabyle pair has similar meaning.")
             with gr.Row():
-                with gr.Column():
-                    en_input = gr.Textbox(label="English", placeholder="Enter English text...")
-                    kab_input = gr.Textbox(label="Kabyle", placeholder="Enter Kabyle text...")
-                    check_btn = gr.Button("Check Quality", variant="primary")
-                with gr.Column():
-                    result_text = gr.Textbox(label="Result", lines=3, interactive=False)
-                    score_bar = gr.Slider(0, 1, label="Similarity Score", interactive=False)
             check_btn.click(
                 fn=check_quality,
                 inputs=[en_input, kab_input],
                 outputs=[result_text, score_bar]
             )
             gr.Examples(
                 examples=[
                     ["Hello!", "Azul!"],
@@ -161,54 +183,89 @@ with gr.Blocks(title="Kabyle Semantic Toolkit") as demo:
                 inputs=[en_input, kab_input],
                 label="Try these examples"
             )
         # Tab 2: Similar Search
         with gr.TabItem("Similar Sentences"):
-            gr.Markdown("Find Kabyle sentences similar to your query.")
-            query_input = gr.Textbox(
-                label="Query (English or Kabyle)",
-                placeholder="Enter text to search..."
-            )
-            top_k_slider = gr.Slider(1, 10, value=5, step=1, label="Number of results")
-            search_btn = gr.Button("Search", variant="primary")
-            search_output = gr.Textbox(label="Results", lines=10, interactive=False)
             search_btn.click(
                 fn=search_similar,
                 inputs=[query_input, top_k_slider],
                 outputs=search_output
             )
             gr.Examples(
                 examples=["How are you?", "Thank you", "Water is life"],
                 inputs=query_input,
                 label="Example queries"
             )
         # Tab 3: Data Validator
         with gr.TabItem("Data Validator"):
             gr.Markdown("Upload a CSV with 'en' and 'kab' columns to validate alignment quality.")
-            file_input = gr.File(label="Upload CSV", file_types=[".csv"])
-            validate_btn = gr.Button("Validate", variant="primary")
             with gr.Row():
-                download_output = gr.File(label="Download Results")
-                summary_output = gr.Textbox(label="Summary", lines=4, interactive=False)
             validate_btn.click(
                 fn=validate_csv,
                 inputs=file_input,
                 outputs=[download_output, summary_output]
             )
     gr.Markdown("""
     ---
-    **Related tools**:
-    [LibreTranslate](https://imsidag-community-libretranslate-kabyle.hf.space/) |
     [MarianMT](https://huggingface.co/boffire/marianmt-en-kab)
     """)
 if __name__ == "__main__":
-    demo.launch()

 MODEL = SentenceTransformer("boffire/kabyle-sentence-transformer-mpnet")
 print("Model loaded")
+# Pre-load and pre-compute search index at startup
+print("Pre-computing search index...")
 try:
     from datasets import load_dataset
     ds = load_dataset("Imsidag-community/english-kabyle-parallel", split="train")
+    SEARCH_PAIRS = [(row["en"], row["kab"]) for row in ds.select(range(min(500, len(ds))))]
+except Exception as e:
+    print("Could not load dataset, using fallback: " + str(e))
     SEARCH_PAIRS = [
         ("Hello!", "Azul!"),
         ("How are you?", "Amek i telliḍ?"),
         ("Water is life", "Aman d tudert"),
     ]
+# Pre-compute embeddings once at startup
+_all_texts = [en for en, _ in SEARCH_PAIRS] + [kab for _, kab in SEARCH_PAIRS]
+SEARCH_EMBEDDINGS = MODEL.encode(_all_texts, convert_to_tensor=True, show_progress_bar=False)
+print("Search index ready: " + str(len(SEARCH_PAIRS)) + " pairs")
 def get_embeddings(texts):
     return MODEL.encode(texts, convert_to_tensor=True)
     """Tab 1: Translation Quality Checker"""
     if not en_text.strip() or not kab_text.strip():
         return "Please enter both sentences", None
     emb = get_embeddings([en_text, kab_text])
     sim = F.cosine_similarity(emb[0].unsqueeze(0), emb[1].unsqueeze(0)).item()
     if sim > 0.85:
         quality = "Excellent match"
     elif sim > 0.6:
         quality = "Good match"
     else:
         quality = "Poor match"
+    result = "Similarity: " + str(round(sim, 4)) + "
+Quality: " + quality
     return result, sim
 def search_similar(query, top_k=5):
+    """Tab 2: Semantic Search - fast because embeddings are pre-computed"""
     if not query.strip():
         return "Please enter a query"
     query_emb = get_embeddings([query])
     # Search both English and Kabyle sides
     scores = F.cosine_similarity(query_emb, SEARCH_EMBEDDINGS).cpu().numpy()
     top_indices = np.argsort(scores)[::-1][:top_k]
     results = []
     seen = set()
     for idx in top_indices:
             pair = SEARCH_PAIRS[idx]
         else:
             pair = SEARCH_PAIRS[idx - len(SEARCH_PAIRS)]
         key = pair[0] + " || " + pair[1]
         if key not in seen:
             seen.add(key)
+            results.append(pair[1] + "
+  (EN: " + pair[0] + ") -- Score: " + str(round(scores[idx], 4)))
+    return "
+".join(results) if results else "No results found"
 def validate_csv(file):
     """Tab 3: Parallel Data Validator"""
     if file is None:
         return None, "Please upload a CSV file with 'en' and 'kab' columns"
     df = pd.read_csv(file.name)
     if "en" not in df.columns or "kab" not in df.columns:
         return None, "CSV must have 'en' and 'kab' columns"
     scores = []
     for _, row in df.iterrows():
         emb = get_embeddings([str(row["en"]), str(row["kab"])])
         sim = F.cosine_similarity(emb[0].unsqueeze(0), emb[1].unsqueeze(0)).item()
         scores.append(sim)
     df["similarity"] = scores
     df["quality"] = df["similarity"].apply(
         lambda s: "good" if s > 0.6 else "poor"
     )
     # Save result
     output_path = "/tmp/validated_pairs.csv"
     df.to_csv(output_path, index=False)
+    summary = "Processed " + str(len(df)) + " pairs
+"
+    summary += "Good quality: " + str(len(df[df["quality"]=="good"])) + "
+"
     summary += "Poor quality: " + str(len(df[df["quality"]=="poor"]))
     return output_path, summary
+# Build UI with Soft theme
+with gr.Blocks(title="Kabyle Semantic Toolkit", theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
     # Kabyle Semantic Toolkit
+    Powered by [**boffire/kabyle-sentence-transformer-mpnet**](https://huggingface.co/boffire/kabyle-sentence-transformer-mpnet)
+    This tool understands meaning, not just words. Use it to check translations,
     find similar sentences, or validate your parallel data.
     """)
     with gr.Tabs():
         # Tab 1: Quality Checker
         with gr.TabItem("Translation Quality"):
             gr.Markdown("Check if an English-Kabyle pair has similar meaning.")
             with gr.Row():
+                with gr.Column(scale=2):
+                    en_input = gr.Textbox(
+                        label="English",
+                        placeholder="Enter English text...",
+                        lines=3
+                    )
+                    kab_input = gr.Textbox(
+                        label="Kabyle",
+                        placeholder="Enter Kabyle text...",
+                        lines=3
+                    )
+                    with gr.Row():
+                        clear_btn_1 = gr.Button("Clear", variant="secondary")
+                        check_btn = gr.Button("Check Quality", variant="primary")
+                with gr.Column(scale=3):
+                    result_text = gr.Textbox(
+                        label="Result",
+                        lines=3,
+                        interactive=False
+                    )
+                    score_bar = gr.Slider(
+                        0, 1,
+                        label="Similarity Score",
+                        interactive=False
+                    )
             check_btn.click(
                 fn=check_quality,
                 inputs=[en_input, kab_input],
                 outputs=[result_text, score_bar]
             )
             gr.Examples(
                 examples=[
                     ["Hello!", "Azul!"],
                 inputs=[en_input, kab_input],
                 label="Try these examples"
             )
+            clear_btn_1.click(
+                fn=lambda: ("", "", "", None),
+                outputs=[en_input, kab_input, result_text, score_bar]
+            )
         # Tab 2: Similar Search
         with gr.TabItem("Similar Sentences"):
+            gr.Markdown("Find Kabyle sentences similar to your query. Search index is pre-loaded for instant results.")
+            with gr.Row():
+                with gr.Column(scale=2):
+                    query_input = gr.Textbox(
+                        label="Query (English or Kabyle)",
+                        placeholder="Enter text to search...",
+                        lines=3
+                    )
+                    top_k_slider = gr.Slider(
+                        1, 10,
+                        value=5,
+                        step=1,
+                        label="Number of results"
+                    )
+                    with gr.Row():
+                        clear_btn_2 = gr.Button("Clear", variant="secondary")
+                        search_btn = gr.Button("Search", variant="primary")
+                with gr.Column(scale=3):
+                    search_output = gr.Textbox(
+                        label="Results",
+                        lines=10,
+                        interactive=False
+                    )
             search_btn.click(
                 fn=search_similar,
                 inputs=[query_input, top_k_slider],
                 outputs=search_output
             )
             gr.Examples(
                 examples=["How are you?", "Thank you", "Water is life"],
                 inputs=query_input,
                 label="Example queries"
             )
+            clear_btn_2.click(
+                fn=lambda: ("", 5, ""),
+                outputs=[query_input, top_k_slider, search_output]
+            )
         # Tab 3: Data Validator
         with gr.TabItem("Data Validator"):
             gr.Markdown("Upload a CSV with 'en' and 'kab' columns to validate alignment quality.")
             with gr.Row():
+                with gr.Column(scale=2):
+                    file_input = gr.File(
+                        label="Upload CSV",
+                        file_types=[".csv"]
+                    )
+                    validate_btn = gr.Button("Validate", variant="primary")
+                with gr.Column(scale=3):
+                    summary_output = gr.Textbox(
+                        label="Summary",
+                        lines=4,
+                        interactive=False
+                    )
+                    download_output = gr.File(label="Download Results")
             validate_btn.click(
                 fn=validate_csv,
                 inputs=file_input,
                 outputs=[download_output, summary_output]
             )
     gr.Markdown("""
     ---
+    **Related tools**:
+    [LibreTranslate](https://imsidag-community-libretranslate-kabyle.hf.space/) |
     [MarianMT](https://huggingface.co/boffire/marianmt-en-kab)
     """)
 if __name__ == "__main__":
+    demo.launch()