Spaces:

chenzihong
/

GraphGen

Build error

App Files Files Community

github-actions[bot] commited on 11 days ago

Commit

2202d61

1 Parent(s): 44c2466

Auto-sync from demo at Fri Apr 10 08:47:17 UTC 2026

Browse files

Files changed (9) hide show

graphgen/bases/base_generator.py +6 -0
graphgen/models/__init__.py +6 -0
graphgen/models/generator/__init__.py +1 -0
graphgen/models/generator/masked_fill_in_blank_generator.py +134 -0
graphgen/models/partitioner/__init__.py +2 -0
graphgen/models/partitioner/quintuple_partitioner.py +74 -0
graphgen/models/partitioner/triple_partitioner.py +58 -0
graphgen/operators/generate/generate_service.py +4 -0
graphgen/operators/partition/partition_service.py +9 -1

graphgen/bases/base_generator.py CHANGED Viewed

@@ -74,4 +74,10 @@ class BaseGenerator(ABC):
                     {"role": "assistant", "content": answer},
                 ]
             }
         raise ValueError(f"Unknown output data format: {output_data_format}")

                     {"role": "assistant", "content": answer},
                 ]
             }
+        if output_data_format == "QA_pairs":
+            return {
+                "question": question,
+                "answer": answer,
+            }
         raise ValueError(f"Unknown output data format: {output_data_format}")

graphgen/models/__init__.py CHANGED Viewed

@@ -15,6 +15,7 @@ if TYPE_CHECKING:
         AtomicGenerator,
         CoTGenerator,
         FillInBlankGenerator,
         MultiAnswerGenerator,
         MultiChoiceGenerator,
         MultiHopGenerator,
@@ -30,6 +31,8 @@ if TYPE_CHECKING:
         DFSPartitioner,
         ECEPartitioner,
         LeidenPartitioner,
     )
     from .reader import (
         CSVReader,
@@ -73,6 +76,7 @@ _import_map = {
     "QuizGenerator": ".generator",
     "TrueFalseGenerator": ".generator",
     "VQAGenerator": ".generator",
     # KG Builder
     "LightRAGKGBuilder": ".kg_builder",
     "MMKGBuilder": ".kg_builder",
@@ -86,6 +90,8 @@ _import_map = {
     "DFSPartitioner": ".partitioner",
     "ECEPartitioner": ".partitioner",
     "LeidenPartitioner": ".partitioner",
     # Reader
     "CSVReader": ".reader",
     "JSONReader": ".reader",

         AtomicGenerator,
         CoTGenerator,
         FillInBlankGenerator,
+        MaskedFillInBlankGenerator,
         MultiAnswerGenerator,
         MultiChoiceGenerator,
         MultiHopGenerator,
         DFSPartitioner,
         ECEPartitioner,
         LeidenPartitioner,
+        QuintuplePartitioner,
+        TriplePartitioner,
     )
     from .reader import (
         CSVReader,
     "QuizGenerator": ".generator",
     "TrueFalseGenerator": ".generator",
     "VQAGenerator": ".generator",
+    "MaskedFillInBlankGenerator": ".generator",
     # KG Builder
     "LightRAGKGBuilder": ".kg_builder",
     "MMKGBuilder": ".kg_builder",
     "DFSPartitioner": ".partitioner",
     "ECEPartitioner": ".partitioner",
     "LeidenPartitioner": ".partitioner",
+    "TriplePartitioner": ".partitioner",
+    "QuintuplePartitioner": ".partitioner",
     # Reader
     "CSVReader": ".reader",
     "JSONReader": ".reader",

graphgen/models/generator/__init__.py CHANGED Viewed

@@ -8,3 +8,4 @@ from .multi_hop_generator import MultiHopGenerator
 from .quiz_generator import QuizGenerator
 from .true_false_generator import TrueFalseGenerator
 from .vqa_generator import VQAGenerator

 from .quiz_generator import QuizGenerator
 from .true_false_generator import TrueFalseGenerator
 from .vqa_generator import VQAGenerator
+from .masked_fill_in_blank_generator import MaskedFillInBlankGenerator

graphgen/models/generator/masked_fill_in_blank_generator.py ADDED Viewed

	@@ -0,0 +1,134 @@

+import random
+import re
+from typing import Any, Optional
+from graphgen.bases import BaseGenerator
+from graphgen.templates import AGGREGATED_GENERATION_PROMPT
+from graphgen.utils import detect_main_language, logger
+random.seed(42)
+class MaskedFillInBlankGenerator(BaseGenerator):
+    """
+    Masked Fill-in-blank Generator follows a TWO-STEP process:
+    1. rephrase: Rephrase the input nodes and edges into a coherent text that maintains the original meaning.
+    2. mask: Randomly select a node from the input nodes, and then mask the name of the node in the rephrased text.
+    """
+    @staticmethod
+    def build_prompt(
+        batch: tuple[list[tuple[str, dict]], list[tuple[Any, Any, dict]]]
+    ) -> str:
+        """
+        Build prompts for REPHRASE.
+        :param batch
+        :return:
+        """
+        nodes, edges = batch
+        entities_str = "\n".join(
+            [
+                f"{index + 1}. {node[0]}: {node[1]['description']}"
+                for index, node in enumerate(nodes)
+            ]
+        )
+        relations_str = "\n".join(
+            [
+                f"{index + 1}. {edge[0]} -- {edge[1]}: {edge[2]['description']}"
+                for index, edge in enumerate(edges)
+            ]
+        )
+        language = detect_main_language(entities_str + relations_str)
+        # TODO: configure add_context
+        #     if add_context:
+        #         original_ids = [
+        #             node["source_id"].split("<SEP>")[0] for node in _process_nodes
+        #         ] + [edge[2]["source_id"].split("<SEP>")[0] for edge in _process_edges]
+        #         original_ids = list(set(original_ids))
+        #         original_text = await text_chunks_storage.get_by_ids(original_ids)
+        #         original_text = "\n".join(
+        #             [
+        #                 f"{index + 1}. {text['content']}"
+        #                 for index, text in enumerate(original_text)
+        #             ]
+        #         )
+        prompt = AGGREGATED_GENERATION_PROMPT[language]["ANSWER_REPHRASING"].format(
+            entities=entities_str, relationships=relations_str
+        )
+        return prompt
+    @staticmethod
+    def parse_rephrased_text(response: str) -> Optional[str]:
+        """
+        Parse the rephrased text from the response.
+        :param response:
+        :return: rephrased text
+        """
+        rephrased_match = re.search(
+            r"<rephrased_text>(.*?)</rephrased_text>", response, re.DOTALL
+        )
+        if rephrased_match:
+            rephrased_text = rephrased_match.group(1).strip()
+        else:
+            logger.warning("Failed to parse rephrased text from response: %s", response)
+            return None
+        return rephrased_text.strip('"').strip("'")
+    @staticmethod
+    def parse_response(response: str) -> dict:
+        pass
+    async def generate(
+        self,
+        batch: tuple[
+            list[tuple[str, dict]], list[tuple[Any, Any, dict] | tuple[Any, Any, Any]]
+        ],
+    ) -> list[dict]:
+        """
+        Generate QAs based on a given batch.
+        :param batch
+        :return: QA pairs
+        """
+        rephrasing_prompt = self.build_prompt(batch)
+        response = await self.llm_client.generate_answer(rephrasing_prompt)
+        context = self.parse_rephrased_text(response)
+        if not context:
+            return []
+        nodes, edges = batch
+        assert len(nodes) == 3, (
+            "MaskedFillInBlankGenerator currently only supports quintuples that has 3 nodes, "
+            f"but got {len(nodes)} nodes."
+        )
+        assert len(edges) == 2, (
+            "MaskedFillInBlankGenerator currently only supports quintuples that has 2 edges, "
+            f"but got {len(edges)} edges."
+        )
+        node1, node2, node3 = nodes
+        mask_node = random.choice([node1, node2, node3])
+        mask_node_name = mask_node[1]["entity_name"].strip("'\" \n\r\t")
+        mask_pattern = re.compile(re.escape(mask_node_name), re.IGNORECASE)
+        match = re.search(mask_pattern, context)
+        if match:
+            gth = match.group(0)
+            masked_context = mask_pattern.sub("___", context)
+        else:
+            logger.debug(
+                "Regex Match Failed!\n"
+                "Expected name of node: %s\n"
+                "Actual context: %s\n",
+                mask_node_name,
+                context,
+            )
+            return []
+        logger.debug("masked_context: %s", masked_context)
+        qa_pairs = {
+            "question": masked_context,
+            "answer": gth,
+        }
+        return [qa_pairs]

graphgen/models/partitioner/__init__.py CHANGED Viewed

@@ -3,3 +3,5 @@ from .bfs_partitioner import BFSPartitioner
 from .dfs_partitioner import DFSPartitioner
 from .ece_partitioner import ECEPartitioner
 from .leiden_partitioner import LeidenPartitioner

 from .dfs_partitioner import DFSPartitioner
 from .ece_partitioner import ECEPartitioner
 from .leiden_partitioner import LeidenPartitioner
+from .quintuple_partitioner import QuintuplePartitioner
+from .triple_partitioner import TriplePartitioner

graphgen/models/partitioner/quintuple_partitioner.py ADDED Viewed

	@@ -0,0 +1,74 @@

+import random
+from collections import deque
+from typing import Any, Iterable, Set
+from graphgen.bases import BaseGraphStorage, BasePartitioner
+from graphgen.bases.datatypes import Community
+random.seed(42)
+class QuintuplePartitioner(BasePartitioner):
+    """
+    quintuple Partitioner that partitions the graph into multiple distinct quintuple (node, edge, node, edge, node).
+    1. Automatically ignore isolated points.
+    2. In each connected component, yield quintuples in the order of BFS.
+    """
+    def partition(
+        self,
+        g: BaseGraphStorage,
+        **kwargs: Any,
+    ) -> Iterable[Community]:
+        nodes = [n[0] for n in g.get_all_nodes()]
+        random.shuffle(nodes)
+        visited_nodes: Set[str] = set()
+        used_edges: Set[frozenset[str]] = set()
+        for seed in nodes:
+            if seed in visited_nodes:
+                continue
+            # start BFS in a connected component
+            queue = deque([seed])
+            visited_nodes.add(seed)
+            while queue:
+                u = queue.popleft()
+                # collect all neighbors connected to node u via unused edges
+                available_neighbors = []
+                for v in g.get_neighbors(u):
+                    edge_key = frozenset((u, v))
+                    if edge_key not in used_edges:
+                        available_neighbors.append(v)
+                    # standard BFS queue maintenance
+                    if v not in visited_nodes:
+                        visited_nodes.add(v)
+                        queue.append(v)
+                random.shuffle(available_neighbors)
+                # every two neighbors paired with the center node u creates one quintuple
+                # Note: If available_neighbors has an odd length, the remaining edge
+                # stays unused for now. It may be matched into a quintuple later
+                # when its other endpoint is processed as a center node.
+                for i in range(0, len(available_neighbors) // 2 * 2, 2):
+                    v1 = available_neighbors[i]
+                    v2 = available_neighbors[i + 1]
+                    edge1 = frozenset((u, v1))
+                    edge2 = frozenset((u, v2))
+                    used_edges.add(edge1)
+                    used_edges.add(edge2)
+                    v1_s, v2_s = sorted((v1, v2))
+                    yield Community(
+                        id=f"{v1_s}-{u}-{v2_s}",
+                        nodes=[v1_s, u, v2_s],
+                        edges=[tuple(sorted((v1_s, u))), tuple(sorted((u, v2_s)))],
+                    )

graphgen/models/partitioner/triple_partitioner.py ADDED Viewed

	@@ -0,0 +1,58 @@

+import random
+from collections import deque
+from typing import Any, Iterable, Set
+from graphgen.bases import BaseGraphStorage, BasePartitioner
+from graphgen.bases.datatypes import Community
+random.seed(42)
+class TriplePartitioner(BasePartitioner):
+    """
+    Triple Partitioner that partitions the graph into multiple distinct triples (node, edge, node).
+    1. Automatically ignore isolated points.
+    2. In each connected component, yield triples in the order of BFS.
+    """
+    def partition(
+        self,
+        g: BaseGraphStorage,
+        **kwargs: Any,
+    ) -> Iterable[Community]:
+        nodes = [n[0] for n in g.get_all_nodes()]
+        random.shuffle(nodes)
+        visited_nodes: Set[str] = set()
+        used_edges: Set[frozenset[str]] = set()
+        for seed in nodes:
+            if seed in visited_nodes:
+                continue
+            # start BFS in a connected component
+            queue = deque([seed])
+            visited_nodes.add(seed)
+            while queue:
+                u = queue.popleft()
+                for v in g.get_neighbors(u):
+                    edge_key = frozenset((u, v))
+                    # if this edge has not been used, a new triple has been found
+                    if edge_key not in used_edges:
+                        used_edges.add(edge_key)
+                        # use the edge name to ensure the uniqueness of the ID
+                        u_sorted, v_sorted = sorted((u, v))
+                        yield Community(
+                            id=f"{u_sorted}-{v_sorted}",
+                            nodes=[u_sorted, v_sorted],
+                            edges=[(u_sorted, v_sorted)],
+                        )
+                    # continue to BFS
+                    if v not in visited_nodes:
+                        visited_nodes.add(v)
+                        queue.append(v)

graphgen/operators/generate/generate_service.py CHANGED Viewed

@@ -71,6 +71,10 @@ class GenerateService(BaseOperator):
                 self.llm_client,
                 num_of_questions=generate_kwargs.get("num_of_questions", 5),
             )
         elif self.method == "true_false":
             from graphgen.models import TrueFalseGenerator

                 self.llm_client,
                 num_of_questions=generate_kwargs.get("num_of_questions", 5),
             )
+        elif self.method == "masked_fill_in_blank":
+            from graphgen.models import MaskedFillInBlankGenerator
+            self.generator = MaskedFillInBlankGenerator(self.llm_client)
         elif self.method == "true_false":
             from graphgen.models import TrueFalseGenerator

graphgen/operators/partition/partition_service.py CHANGED Viewed

@@ -28,7 +28,7 @@ class PartitionService(BaseOperator):
         self.tokenizer_instance: BaseTokenizer = Tokenizer(model_name=tokenizer_model)
         method = partition_kwargs["method"]
-        self.method_params = partition_kwargs["method_params"]
         if method == "bfs":
             from graphgen.models import BFSPartitioner
@@ -57,6 +57,14 @@ class PartitionService(BaseOperator):
                 if self.method_params.get("anchor_ids")
                 else None,
             )
         else:
             raise ValueError(f"Unsupported partition method: {method}")

         self.tokenizer_instance: BaseTokenizer = Tokenizer(model_name=tokenizer_model)
         method = partition_kwargs["method"]
+        self.method_params = partition_kwargs.get("method_params", {})
         if method == "bfs":
             from graphgen.models import BFSPartitioner
                 if self.method_params.get("anchor_ids")
                 else None,
             )
+        elif method == "triple":
+            from graphgen.models import TriplePartitioner
+            self.partitioner = TriplePartitioner()
+        elif method == "quintuple":
+            from graphgen.models import QuintuplePartitioner
+            self.partitioner = QuintuplePartitioner()
         else:
             raise ValueError(f"Unsupported partition method: {method}")