Babajaan
/

manuscript-mimic

Model card Files Files and versions

xet

Community

Babajaan commited on about 1 month ago

Commit

9d97b7e

verified ·

1 Parent(s): 73bbc7f

Add app.py

Browse files

Files changed (1) hide show

manuscript_mimic/app.py +236 -0

manuscript_mimic/app.py ADDED Viewed

	@@ -0,0 +1,236 @@

+"""
+app.py — Manuscript-Mimic Gradio UI
+Upload a reference PDF (or paste reference text) and paste your AI-generated
+draft.  The agent rewrites the draft to statistically match the reference's
+academic writing style.
+"""
+from __future__ import annotations
+import json
+import os
+import traceback
+import gradio as gr
+from style_extractor import extract_style_metrics, StyleExtractorTool
+from rewrite_agent import run_mimic, DEMO_REFERENCE, DEMO_TARGET
+# ── PDF extraction helper ───────────────────────────────────────────────────────
+def extract_pdf_text(pdf_path: str) -> str:
+    """Best-effort plain-text extraction from a PDF file."""
+    try:
+        import pymupdf  # PyMuPDF (fitz)
+        doc = pymupdf.open(pdf_path)
+        pages = [page.get_text() for page in doc]
+        doc.close()
+        return "\n\n".join(pages).strip()
+    except ImportError:
+        pass
+    try:
+        from pypdf import PdfReader
+        reader = PdfReader(pdf_path)
+        pages = [p.extract_text() or "" for p in reader.pages]
+        return "\n\n".join(pages).strip()
+    except ImportError:
+        pass
+    return (
+        "⚠️  Could not extract PDF text. Install pymupdf or pypdf:\n"
+        "    pip install pymupdf   # OR   pip install pypdf"
+    )
+# ── Metric formatting ──────────────────────────────────────────────────────────
+def fmt_metrics(m: dict) -> str:
+    """Pretty-print metrics dict."""
+    lines = [
+        f"  Sentences            : {m['num_sentences']}",
+        f"  Total words          : {m['total_words']}",
+        f"  Avg sentence length  : {m['avg_sentence_length']:.2f}",
+        f"  Sentence length σ    : {m['sentence_length_variance']:.4f}",
+        f"  Hedging density      : {m['hedging_density']:.4f}  (hedge words / sentence)",
+        f"  Passive voice density: {m['passive_voice_density']:.4f}  (passives / sentence)",
+    ]
+    return "\n".join(lines)
+def metric_delta(ref: dict, other: dict) -> str:
+    """Show deltas between two metric dicts."""
+    keys = ["sentence_length_variance", "hedging_density", "passive_voice_density"]
+    lines = []
+    for k in keys:
+        r, o = ref[k], other[k]
+        if r == 0:
+            pct = "N/A" if o == 0 else "+∞"
+        else:
+            pct = f"{((o - r) / r) * 100:+.1f}%"
+        lines.append(f"  {k:>28s}:  ref={r:.4f}  now={o:.4f}  Δ={pct}")
+    return "\n".join(lines)
+# ── Main Gradio callback ───────────────────────────────────────────────────────
+def process(
+    pdf_file,
+    reference_text: str,
+    target_text: str,
+    model_id: str,
+    max_steps: int,
+):
+    """
+    Main pipeline:
+      1. Extract reference text (from PDF or textbox)
+      2. Compute metrics for both texts
+      3. Run the agent to rewrite
+      4. Compute metrics on result
+      5. Return everything
+    """
+    # ── 1. Reference text ────────────────────────────────────────────────────
+    if pdf_file is not None:
+        reference_text = extract_pdf_text(pdf_file.name if hasattr(pdf_file, "name") else str(pdf_file))
+        if reference_text.startswith("⚠️"):
+            return reference_text, "", "", "", ""
+    if not reference_text or not reference_text.strip():
+        return "❌ Please provide reference text (paste or upload PDF).", "", "", "", ""
+    if not target_text or not target_text.strip():
+        return "❌ Please provide a target draft to rewrite.", "", "", "", ""
+    # ── 2. Compute pre-rewrite metrics ───────────────────────────────────────
+    ref_metrics = extract_style_metrics(reference_text)
+    tgt_metrics = extract_style_metrics(target_text)
+    ref_report = "📖  REFERENCE TEXT METRICS\n" + fmt_metrics(ref_metrics)
+    tgt_report = "📝  TARGET DRAFT METRICS (before)\n" + fmt_metrics(tgt_metrics)
+    pre_delta = "📏  DELTA (target vs reference)\n" + metric_delta(ref_metrics, tgt_metrics)
+    # ── 3. Run the agent ─────────────────────────────────────────────────────
+    try:
+        rewritten = run_mimic(
+            reference_text=reference_text,
+            target_text=target_text,
+            model_id=model_id,
+            max_steps=int(max_steps),
+            verbosity=1,
+        )
+    except Exception as e:
+        tb = traceback.format_exc()
+        return ref_report, tgt_report, pre_delta, f"❌ Agent error:\n{e}\n\n{tb}", ""
+    # ── 4. Post-rewrite metrics ──────────────────────────────────────────────
+    new_metrics = extract_style_metrics(rewritten)
+    post_report = (
+        "✅  REWRITTEN TEXT METRICS\n"
+        + fmt_metrics(new_metrics)
+        + "\n\n📏  DELTA (rewritten vs reference)\n"
+        + metric_delta(ref_metrics, new_metrics)
+    )
+    return ref_report, tgt_report + "\n\n" + pre_delta, rewritten, post_report, reference_text
+# ── Gradio UI ───────────────────────────────────────────────────────────────────
+DESCRIPTION = """\
+# 🖋️ Manuscript-Mimic
+**AI Style Transfer for Scientific Writing**
+Upload a pre-2022 human-authored reference manuscript (PDF or pasted text) and
+an AI-generated draft. The agent rewrites your draft to statistically match
+the reference's writing style — sentence complexity, hedging language, and
+passive voice patterns.
+**Three metrics are matched:**
+- **Sentence Length Variance** — σ of word counts per sentence
+- **Hedging Density** — frequency of hedge words (*suggest, may, putative, indicate*…)
+- **Passive Voice Density** — frequency of academic passives (*was performed, were analyzed*…)
+"""
+with gr.Blocks(
+    title="Manuscript-Mimic",
+) as demo:
+    gr.Markdown(DESCRIPTION)
+    with gr.Row():
+        with gr.Column(scale=1):
+            gr.Markdown("### 📖 Reference Style")
+            pdf_input = gr.File(
+                label="Upload Reference PDF (optional)",
+                file_types=[".pdf"],
+                type="filepath",
+            )
+            ref_textbox = gr.Textbox(
+                label="Or paste Reference Text",
+                placeholder="Paste a paragraph from a pre-2022 manuscript…",
+                lines=10,
+            )
+        with gr.Column(scale=1):
+            gr.Markdown("### 📝 Target Draft")
+            target_textbox = gr.Textbox(
+                label="Paste your AI-generated draft",
+                placeholder="Paste the text you want rewritten…",
+                lines=10,
+            )
+    with gr.Row():
+        model_dropdown = gr.Dropdown(
+            label="LLM Model",
+            choices=[
+                "Qwen/Qwen2.5-Coder-32B-Instruct",
+                "meta-llama/Llama-3.3-70B-Instruct",
+                "mistralai/Mixtral-8x7B-Instruct-v0.1",
+            ],
+            value="Qwen/Qwen2.5-Coder-32B-Instruct",
+        )
+        steps_slider = gr.Slider(
+            label="Max Agent Steps",
+            minimum=4,
+            maximum=20,
+            step=1,
+            value=12,
+        )
+    run_btn = gr.Button("🔄  Rewrite to Match Style", variant="primary", size="lg")
+    # Demo loader
+    demo_btn = gr.Button("📋  Load Demo Texts", variant="secondary")
+    with gr.Row():
+        ref_metrics_box = gr.Textbox(label="Reference Metrics", lines=8, interactive=False)
+        tgt_metrics_box = gr.Textbox(label="Target Metrics & Delta", lines=10, interactive=False)
+    gr.Markdown("### ✅ Rewritten Text")
+    rewritten_box = gr.Textbox(label="Rewritten Draft", lines=12, interactive=False)
+    post_metrics_box = gr.Textbox(label="Post-Rewrite Metrics & Delta", lines=10, interactive=False)
+    extracted_ref_box = gr.Textbox(label="Extracted Reference (from PDF)", lines=6, visible=False)
+    # ── Event wiring ────────────────────────────────────────────────────────
+    run_btn.click(
+        fn=process,
+        inputs=[pdf_input, ref_textbox, target_textbox, model_dropdown, steps_slider],
+        outputs=[ref_metrics_box, tgt_metrics_box, rewritten_box, post_metrics_box, extracted_ref_box],
+    )
+    def load_demo():
+        return DEMO_REFERENCE, DEMO_TARGET
+    demo_btn.click(
+        fn=load_demo,
+        inputs=[],
+        outputs=[ref_textbox, target_textbox],
+    )
+if __name__ == "__main__":
+    demo.launch(server_name="0.0.0.0", server_port=7860, theme=gr.themes.Soft())