Spaces:

gaurv007
/

ClauseGuard

Sleeping

App Files Files Community

gaurv007 commited on 15 days ago

Commit

c6e0514

verified ·

1 Parent(s): 3116f23

v3.1: Fix 9-10 — cross-domain detection, higher similarity threshold, contract type gate

Browse files

Files changed (1) hide show

compare.py +33 -2

compare.py CHANGED Viewed

@@ -98,6 +98,28 @@ def compare_contracts(text_a, text_b, clauses_a=None, clauses_b=None):
     if clauses_b is None:
         clauses_b = _split_clauses(text_b)
     # Build clause type maps
     type_map_a = defaultdict(list)
     type_map_b = defaultdict(list)
@@ -111,8 +133,9 @@ def compare_contracts(text_a, text_b, clauses_a=None, clauses_b=None):
     matched_b = set()
     modified = []
-    SIMILARITY_THRESHOLD = 0.70
-    MODIFIED_THRESHOLD = 0.40
     for i, ca in enumerate(clauses_a):
         best_sim = 0
@@ -181,12 +204,20 @@ def compare_contracts(text_a, text_b, clauses_a=None, clauses_b=None):
         risk_delta = "Similar risk profiles"
         risk_winner = "tie"
     comparison_method = "semantic (sentence embeddings)" if _embedder is not None else "lexical (string matching)"
     return {
         "alignment_score": round(alignment, 3),
         "contract_a_clauses": len(clauses_a),
         "contract_b_clauses": len(clauses_b),
         "added_clauses": [{"text": c[:200], "type": _extract_clause_type(c)} for c in added[:50]],
         "removed_clauses": [{"text": c[:200], "type": _extract_clause_type(c)} for c in removed[:50]],
         "modified_clauses": modified[:50],

     if clauses_b is None:
         clauses_b = _split_clauses(text_b)
+    # Fix 9: Detect contract types and flag cross-domain comparisons
+    _CONTRACT_TYPE_KEYWORDS = {
+        "employment": ["employee", "employer", "salary", "compensation", "benefits", "vacation", "severance", "at-will"],
+        "lease": ["landlord", "tenant", "rent", "premises", "lease", "occupancy", "security deposit", "eviction"],
+        "service": ["service provider", "customer", "SLA", "deliverables", "statement of work", "SOW"],
+        "nda": ["confidential", "non-disclosure", "disclosing party", "receiving party"],
+        "saas": ["subscription", "SaaS", "cloud", "uptime", "API", "data processing"],
+        "purchase": ["buyer", "seller", "purchase order", "goods", "shipment", "delivery"],
+    }
+    def _detect_contract_type(text):
+        text_lower = text.lower()
+        scores = {}
+        for ctype, keywords in _CONTRACT_TYPE_KEYWORDS.items():
+            scores[ctype] = sum(1 for kw in keywords if kw.lower() in text_lower)
+        best = max(scores, key=scores.get)
+        return best if scores[best] >= 2 else "general"
+    type_a = _detect_contract_type(text_a)
+    type_b = _detect_contract_type(text_b)
+    is_cross_domain = type_a != type_b and type_a != "general" and type_b != "general"
     # Build clause type maps
     type_map_a = defaultdict(list)
     type_map_b = defaultdict(list)
     matched_b = set()
     modified = []
+    # Fix 10: Raise thresholds to reject false "modified" matches
+    SIMILARITY_THRESHOLD = 0.75   # was 0.70 — too many false matches
+    MODIFIED_THRESHOLD = 0.55     # was 0.40 — "Good Reason" ≠ "Force Majeure"
     for i, ca in enumerate(clauses_a):
         best_sim = 0
         risk_delta = "Similar risk profiles"
         risk_winner = "tie"
+    # Fix 9: Cross-domain warning
+    if is_cross_domain:
+        risk_delta = f"Cross-domain comparison ({type_a} vs {type_b}) — risk delta not meaningful across different contract types"
+        risk_winner = "cross-domain"
     comparison_method = "semantic (sentence embeddings)" if _embedder is not None else "lexical (string matching)"
     return {
         "alignment_score": round(alignment, 3),
         "contract_a_clauses": len(clauses_a),
         "contract_b_clauses": len(clauses_b),
+        "contract_a_type": type_a,
+        "contract_b_type": type_b,
+        "is_cross_domain": is_cross_domain,
         "added_clauses": [{"text": c[:200], "type": _extract_clause_type(c)} for c in added[:50]],
         "removed_clauses": [{"text": c[:200], "type": _extract_clause_type(c)} for c in removed[:50]],
         "modified_clauses": modified[:50],