Spaces:

DataEyond
/

Agentic-Service-Data-Eyond

Running

App Files Files Community

Rifqi Hafizuddin commited on 7 days ago

Commit

6b590d9

1 Parent(s): 9b59334

[NOTICKET] new metadata format for cleaner code

Browse files

Files changed (2) hide show

src/knowledge/processing_service.py +23 -11
src/pipeline/db_pipeline/pipeline.py +7 -5

src/knowledge/processing_service.py CHANGED Viewed

@@ -49,10 +49,14 @@ class KnowledgeProcessingService:
                     LangChainDocument(
                         page_content=chunk,
                         metadata={
-                            "document_id": db_doc.id,
                             "user_id": db_doc.user_id,
-                            "filename": db_doc.filename,
-                            "chunk_index": i,
                         }
                     )
                     for i, chunk in enumerate(chunks)
@@ -104,11 +108,15 @@ class KnowledgeProcessingService:
                         documents.append(LangChainDocument(
                             page_content=chunk,
                             metadata={
-                                "document_id": db_doc.id,
                                 "user_id": db_doc.user_id,
-                                "filename": db_doc.filename,
-                                "chunk_index": len(documents),
-                                "page_label": page.page_number,
                             }
                         ))
         else:
@@ -122,11 +130,15 @@ class KnowledgeProcessingService:
                     documents.append(LangChainDocument(
                         page_content=chunk,
                         metadata={
-                            "document_id": db_doc.id,
                             "user_id": db_doc.user_id,
-                            "filename": db_doc.filename,
-                            "chunk_index": len(documents),
-                            "page_label": page_num,
                         }
                     ))

                     LangChainDocument(
                         page_content=chunk,
                         metadata={
                             "user_id": db_doc.user_id,
+                            "source_type": "document",
+                            "data": {
+                                "document_id": db_doc.id,
+                                "filename": db_doc.filename,
+                                "file_type": db_doc.file_type,
+                                "chunk_index": i,
+                            },
                         }
                     )
                     for i, chunk in enumerate(chunks)
                         documents.append(LangChainDocument(
                             page_content=chunk,
                             metadata={
                                 "user_id": db_doc.user_id,
+                                "source_type": "document",
+                                "data": {
+                                    "document_id": db_doc.id,
+                                    "filename": db_doc.filename,
+                                    "file_type": db_doc.file_type,
+                                    "chunk_index": len(documents),
+                                    "page_label": page.page_number,
+                                },
                             }
                         ))
         else:
                     documents.append(LangChainDocument(
                         page_content=chunk,
                         metadata={
                             "user_id": db_doc.user_id,
+                            "source_type": "document",
+                            "data": {
+                                "document_id": db_doc.id,
+                                "filename": db_doc.filename,
+                                "file_type": db_doc.file_type,
+                                "chunk_index": len(documents),
+                                "page_label": page_num,
+                            },
                         }
                     ))

src/pipeline/db_pipeline/pipeline.py CHANGED Viewed

@@ -25,11 +25,13 @@ def _to_document(user_id: str, table_name: str, entry: dict) -> LangChainDocumen
         metadata={
             "user_id": user_id,
             "source_type": "database",
-            "table_name": table_name,
-            "column_name": col["name"],
-            "column_type": col["type"],
-            "is_primary_key": col.get("is_primary_key", False),
-            "foreign_key": col.get("foreign_key"),
         },
     )

         metadata={
             "user_id": user_id,
             "source_type": "database",
+            "data": {
+                "table_name": table_name,
+                "column_name": col["name"],
+                "column_type": col["type"],
+                "is_primary_key": col.get("is_primary_key", False),
+                "foreign_key": col.get("foreign_key"),
+            },
         },
     )