Add phd_research_os/pipeline.py

Browse files

Files changed (1) hide show

phd_research_os/pipeline.py +276 -0

phd_research_os/pipeline.py ADDED Viewed

	@@ -0,0 +1,276 @@

+"""
+PhD Research OS — Pipeline Orchestrator (Phase 1 + Phase 6)
+============================================================
+End-to-end pipeline: PDF → Text → Claims → Conflicts → Obsidian Export
+Implements:
+  - PDF text extraction (PyMuPDF / pdfplumber fallback)
+  - Source metadata via CrossRef API
+  - Claim extraction + confidence scoring via AI brain
+  - Batch inbox processing
+  - Cost tracking
+"""
+import os
+import json
+import glob
+import shutil
+import time
+from datetime import datetime
+from typing import Optional
+from pathlib import Path
+from .db import (get_db, init_db, create_claim, create_source,
+                 get_claim, search_claims, log_api_usage, get_cost_summary)
+from .agents import ResearchOSBrain
+class Pipeline:
+    """
+    PhD Research OS Paper Ingestion Pipeline.
+    Usage:
+        pipeline = Pipeline()
+        result = pipeline.process_paper("path/to/paper.pdf")
+        pipeline.process_inbox()  # Batch process /inbox/ folder
+    """
+    def __init__(self, db_path: str = None, brain: ResearchOSBrain = None):
+        self.db_path = db_path or os.environ.get("RESEARCH_OS_DB", "data/research_os.db")
+        init_db(self.db_path)
+        self.conn = get_db(self.db_path)
+        self.brain = brain
+        # Ensure directories exist
+        for d in ["inbox", "processed", "lab_data", "data"]:
+            os.makedirs(d, exist_ok=True)
+    def extract_text(self, pdf_path: str) -> list[str]:
+        """
+        Extract text from PDF, page by page.
+        Primary: PyMuPDF (fitz). Fallback: pdfplumber.
+        """
+        pages = []
+        try:
+            import fitz  # PyMuPDF
+            doc = fitz.open(pdf_path)
+            for page in doc:
+                text = page.get_text()
+                if text.strip():
+                    pages.append(text)
+            doc.close()
+            if pages:
+                return pages
+        except ImportError:
+            pass
+        except Exception as e:
+            print(f"  PyMuPDF failed: {e}, trying pdfplumber...")
+        try:
+            import pdfplumber
+            with pdfplumber.open(pdf_path) as pdf:
+                for page in pdf.pages:
+                    text = page.extract_text()
+                    if text and text.strip():
+                        pages.append(text)
+            if pages:
+                return pages
+        except ImportError:
+            pass
+        except Exception as e:
+            print(f"  pdfplumber failed: {e}")
+        raise RuntimeError(f"Could not extract text from {pdf_path}. Install PyMuPDF or pdfplumber.")
+    def lookup_doi(self, text: str) -> Optional[dict]:
+        """
+        Look up DOI metadata via CrossRef API.
+        Searches for DOI in text, then fetches metadata.
+        """
+        import re
+        # Try to find DOI in text
+        doi_pattern = r'10\.\d{4,}/[^\s]+'
+        match = re.search(doi_pattern, text)
+        if not match:
+            return None
+        doi = match.group(0).rstrip('.,;)')
+        try:
+            import httpx
+            response = httpx.get(
+                f"https://api.crossref.org/works/{doi}",
+                timeout=10,
+                headers={"User-Agent": "PhDResearchOS/1.0 (mailto:research@example.com)"}
+            )
+            if response.status_code == 200:
+                data = response.json()["message"]
+                return {
+                    "doi": doi,
+                    "title": data.get("title", [""])[0],
+                    "authors": [f"{a.get('given', '')} {a.get('family', '')}"
+                               for a in data.get("author", [])],
+                    "year": data.get("published-print", {}).get("date-parts", [[None]])[0][0],
+                    "journal": data.get("container-title", [""])[0],
+                }
+        except Exception as e:
+            print(f"  DOI lookup failed: {e}")
+        return {"doi": doi, "title": "", "authors": [], "year": None, "journal": ""}
+    def process_paper(self, pdf_path: str, journal_tier: int = 2,
+                      is_canonical: bool = False) -> dict:
+        """
+        Process a single paper end-to-end.
+        Returns summary dict with claim counts and metrics.
+        """
+        print(f"\n{'='*60}")
+        print(f"Processing: {pdf_path}")
+        print(f"{'='*60}")
+        start_time = time.time()
+        result = {
+            "file": pdf_path,
+            "claims_extracted": 0,
+            "claims_complete": 0,
+            "claims_incomplete": 0,
+            "epistemic_distribution": {},
+            "avg_confidence": 0.0,
+            "doi": None,
+            "errors": [],
+            "processing_time_s": 0,
+        }
+        # Step 1: Extract text
+        print("  Step 1: Extracting text...")
+        try:
+            pages = self.extract_text(pdf_path)
+            print(f"    Extracted {len(pages)} pages")
+        except Exception as e:
+            result["errors"].append(f"Text extraction failed: {e}")
+            return result
+        # Step 2: DOI lookup
+        print("  Step 2: Looking up DOI...")
+        full_text = " ".join(pages[:3])  # Search first 3 pages for DOI
+        doi_info = self.lookup_doi(full_text)
+        if doi_info:
+            result["doi"] = doi_info["doi"]
+            create_source(self.conn, doi_info["doi"], doi_info["title"],
+                         doi_info["authors"], doi_info["year"], doi_info["journal"],
+                         journal_tier, is_canonical=is_canonical)
+            print(f"    Found DOI: {doi_info['doi']}")
+        else:
+            print("    No DOI found")
+        # Step 3: Extract claims via AI brain
+        if self.brain is None:
+            print("  Step 3: Skipping claim extraction (no brain configured)")
+            print("    To enable: set brain=ResearchOSBrain(...) or use API mode")
+            result["processing_time_s"] = time.time() - start_time
+            return result
+        print("  Step 3: Extracting claims via AI brain...")
+        all_claims = []
+        for i, page_text in enumerate(pages):
+            if len(page_text.strip()) < 100:  # Skip near-empty pages
+                continue
+            print(f"    Processing page {i+1}/{len(pages)}...")
+            response = self.brain.extract_claims(page_text)
+            if response.success and "claims" in response.data:
+                for claim_data in response.data["claims"]:
+                    try:
+                        cid = create_claim(
+                            self.conn,
+                            text=claim_data.get("text", ""),
+                            epistemic_tag=claim_data.get("epistemic_tag", "Interpretation"),
+                            confidence=float(claim_data.get("confidence", 0.5)),
+                            source_doi=doi_info["doi"] if doi_info else None,
+                            evidence_strength=float(claim_data.get("evidence_strength", 0.5)),
+                            study_type=claim_data.get("study_type"),
+                            missing_fields=claim_data.get("missing_fields", []),
+                            parameters=claim_data.get("parameters", {}),
+                            is_canonical=is_canonical,
+                        )
+                        all_claims.append(get_claim(self.conn, cid))
+                    except Exception as e:
+                        result["errors"].append(f"Claim storage error: {e}")
+            else:
+                result["errors"].append(f"Page {i+1}: Extraction failed")
+        # Step 4: Compile statistics
+        result["claims_extracted"] = len(all_claims)
+        result["claims_complete"] = sum(1 for c in all_claims if c["status"] == "Complete")
+        result["claims_incomplete"] = sum(1 for c in all_claims if c["status"] == "Incomplete")
+        for c in all_claims:
+            tag = c["epistemic_tag"]
+            result["epistemic_distribution"][tag] = result["epistemic_distribution"].get(tag, 0) + 1
+        if all_claims:
+            result["avg_confidence"] = sum(c["confidence"] for c in all_claims) / len(all_claims)
+        result["processing_time_s"] = time.time() - start_time
+        # Print summary
+        print(f"\n  Summary:")
+        print(f"    Claims extracted: {result['claims_extracted']}")
+        print(f"    Complete/Incomplete: {result['claims_complete']}/{result['claims_incomplete']}")
+        print(f"    Epistemic distribution: {result['epistemic_distribution']}")
+        print(f"    Average confidence: {result['avg_confidence']:.3f}")
+        print(f"    Processing time: {result['processing_time_s']:.1f}s")
+        if result["errors"]:
+            print(f"    Errors: {len(result['errors'])}")
+        return result
+    def process_inbox(self, rate_limit: int = 5) -> list:
+        """
+        Batch process all PDFs in /inbox/.
+        Moves processed files to /processed/ with timestamp.
+        Args:
+            rate_limit: Max papers per hour (default 5)
+        """
+        pdf_files = sorted(glob.glob("inbox/*.pdf"))
+        if not pdf_files:
+            print("No PDFs in inbox/")
+            return []
+        print(f"Found {len(pdf_files)} PDFs in inbox/")
+        results = []
+        delay = 3600 / rate_limit  # seconds between papers
+        for i, pdf_path in enumerate(pdf_files):
+            print(f"\n[{i+1}/{len(pdf_files)}] ", end="")
+            result = self.process_paper(pdf_path)
+            results.append(result)
+            # Move to processed
+            timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+            dest = f"processed/{timestamp}_{os.path.basename(pdf_path)}"
+            shutil.move(pdf_path, dest)
+            print(f"  Moved to {dest}")
+            # Rate limiting
+            if i < len(pdf_files) - 1:
+                print(f"  Waiting {delay:.0f}s (rate limit: {rate_limit}/hr)...")
+                time.sleep(min(delay, 5))  # Cap at 5s in practice
+        # Print batch summary
+        total_claims = sum(r["claims_extracted"] for r in results)
+        total_errors = sum(len(r["errors"]) for r in results)
+        print(f"\n{'='*60}")
+        print(f"Batch complete: {len(results)} papers, {total_claims} claims, {total_errors} errors")
+        print(f"{'='*60}")
+        return results