Spaces:

DarForm
/

ProHelper

Sleeping

DarForm commited on Sep 17, 2024

Commit

65d160a

verified ·

1 Parent(s): 8b9e5cd

Update emb.py

Files changed (1) hide show

emb.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import os
 from langchain.document_loaders import PyPDFLoader, DirectoryLoader, PDFMinerLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.embeddings import SentenceTransformerEmbeddings
 from langchain.vectorstores import Chroma
 import configparser
@@ -131,25 +131,25 @@ class EmbeddingsManager:
     #This function is used to add documents to an existing vector store
-    def generate_vector_store(self, index):
-        """Adds a document to the vector store on Pinecone."""
-        documents = []
-        for root, dirs, files in os.walk("docs"):
-            for file in files:
-                if file.endswith(".pdf"):
-                    print("Uploading "+file.replace(".pdf",""))
-                    documents.clear()
-                    loader = PDFMinerLoader(os.path.join(root, file))
-                    documents.extend(loader.load())
-                    text_splitter = RecursiveCharacterTextSplitter(chunk_size=self.text_split_size, chunk_overlap=self.text_overlap)
-                    texts = text_splitter.split_documents(documents)
-                    docsearch = Pinecone.from_documents(texts, embedding=self.embeddings_model, index_name=index)
-                    os.remove(os.path.join(root, file))
-        return "Ok"
     # Example Usage:
 if __name__ == "__main__":

 import os
 from langchain.document_loaders import PyPDFLoader, DirectoryLoader, PDFMinerLoader
+#from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.embeddings import SentenceTransformerEmbeddings
 from langchain.vectorstores import Chroma
 import configparser
     #This function is used to add documents to an existing vector store
+#    def generate_vector_store(self, index):
+#        """Adds a document to the vector store on Pinecone."""
+#
+#        documents = []
+#        for root, dirs, files in os.walk("docs"):
+#            for file in files:
+#                if file.endswith(".pdf"):
+#                    print("Uploading "+file.replace(".pdf",""))
+#                    documents.clear()
+#                    loader = PDFMinerLoader(os.path.join(root, file))
+#                    documents.extend(loader.load())
+#                    text_splitter = RecursiveCharacterTextSplitter(chunk_size=self.text_split_size, chunk_overlap=self.text_overlap)
+#                    texts = text_splitter.split_documents(documents)
+#                    docsearch = Pinecone.from_documents(texts, embedding=self.embeddings_model, index_name=index)
+#                    os.remove(os.path.join(root, file))
+#
+#        return "Ok"
+#
+#
     # Example Usage:
 if __name__ == "__main__":