Spaces:

Emerging-Tech
/

document

Sleeping

App Files Files Community

Nikhil0987 commited on Feb 26, 2024

Commit

6da0fd1

verified ·

1 Parent(s): 65a34df

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -33

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
-from langchain.document_loaders import DirectoryLoader
 from langchain.text_splitter import CharacterTextSplitter
 import os
-import pinecone
 from langchain.vectorstores import Pinecone
 from langchain.embeddings.openai import OpenAIEmbeddings
 from langchain.chains import RetrievalQA
@@ -11,14 +11,23 @@ from dotenv import load_dotenv
 load_dotenv()
 PINECONE_API_KEY = os.getenv('PINECONE_API_KEY')
 PINECONE_ENV = os.getenv('PINECONE_ENV')
 OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')
 os.environ['OPENAI_API_KEY'] = OPENAI_API_KEY
 def doc_preprocessing():
     loader = DirectoryLoader(
         'data/',
@@ -33,38 +42,30 @@ def doc_preprocessing():
     docs_split = text_splitter.split_documents(docs)
     return docs_split
-@st.cache_resource
-def embedding_db():
-    # we use the openAI embedding model
-    embeddings = OpenAIEmbeddings()
-    # Initialize Pinecone
-    pc = Pinecone(
-        api_key=PINECONE_API_KEY,
-        environment=PINECONE_ENV
-    )
-    docs_split = doc_preprocessing()
-    # Check if index exists, create if needed
-    if 'langchain-demo-indexes' not in pc.list_indexes().names():
-        pc.create_index(
-           name='langchain-demo-indexes',
-           dimension=1536, # Adjust dimension if needed
-           metric='euclidean',
-           spec=ServerlessSpec(cloud='aws', region='us-west-2')
-        )
-    doc_db = Pinecone.from_documents(
-        docs_split,
-        embeddings,
-        index_name='langchain-demo-indexes',
-        client=pc  # Pass the Pinecone object
-    )
-    return doc_db
-llm = ChatOpenAI()
-doc_db = embedding_db()
 def retrieval_answer(query):
     qa = RetrievalQA.from_chain_type(

+from langchain.document_loaders import DirectoryLoader
 from langchain.text_splitter import CharacterTextSplitter
 import os
+import pinecone
 from langchain.vectorstores import Pinecone
 from langchain.embeddings.openai import OpenAIEmbeddings
 from langchain.chains import RetrievalQA
 load_dotenv()
 PINECONE_API_KEY = os.getenv('PINECONE_API_KEY')
 PINECONE_ENV = os.getenv('PINECONE_ENV')
 OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')
 os.environ['OPENAI_API_KEY'] = OPENAI_API_KEY
+@st.cache_resource
+def embedding_db():
+    # we use the openAI embedding model
+    embeddings = OpenAIEmbeddings()
+    # Initialize Pinecone: Updated method
+    pc = pinecone.init(
+        api_key=PINECONE_API_KEY,
+        environment=PINECONE_ENV
 def doc_preprocessing():
     loader = DirectoryLoader(
         'data/',
     docs_split = text_splitter.split_documents(docs)
     return docs_split
+#     docs_split = doc_preprocessing()
+#     # Check if index exists, create if needed
+#     if 'langchain-demo-indexes' not in pc.list_indexes().names():
+#         pc.create_index(
+#            name='langchain-demo-indexes',
+#            dimension=1536, # Adjust dimension if needed
+#            metric='euclidean',
+#            spec=ServerlessSpec(cloud='aws', region='us-west-2')
+#         )
+#     doc_db = Pinecone.from_documents(
+#         docs_split,
+#         embeddings,
+#         index_name='langchain-demo-indexes',
+#         client=pc  # Pass the Pinecone object
+#     )
+#     return doc_db
+# llm = ChatOpenAI()
+# doc_db = embedding_db()
 def retrieval_answer(query):
     qa = RetrievalQA.from_chain_type(