Spaces:

itismouad
/

pythonic-raqa-langchain-pinecone

Sleeping

App Files Files Community

itismouad commited on Dec 14, 2023

Commit

b2b64bc

1 Parent(s): ffa9554

initial commit of app

Browse files

Files changed (6) hide show

.gitignore +169 -0
Dockerfile +11 -0
app.py +89 -0
chainlit.md +3 -0
requirements.txt +9 -0
utils.py +182 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,169 @@

+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+# C extensions
+*.so
+# misc
+.DS_Store
+.chainlit
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+share/python-wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.nox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+*.py,cover
+.hypothesis/
+.pytest_cache/
+cover/
+# Translations
+*.mo
+*.pot
+# Django stuff:
+*.log
+local_settings.py
+db.sqlite3
+db.sqlite3-journal
+# Flask stuff:
+instance/
+.webassets-cache
+# Scrapy stuff:
+.scrapy
+# Sphinx documentation
+docs/_build/
+# PyBuilder
+.pybuilder/
+target/
+# Jupyter Notebook
+.ipynb_checkpoints
+# IPython
+profile_default/
+ipython_config.py
+# pyenv
+#   For a library or package, you might want to ignore these files since the code is
+#   intended to run in multiple environments; otherwise, check them in:
+# .python-version
+# pipenv
+#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
+#   However, in case of collaboration, if having platform-specific dependencies or dependencies
+#   having no cross-platform support, pipenv may install dependencies that don't work, or not
+#   install all needed dependencies.
+#Pipfile.lock
+# poetry
+#   Similar to Pipfile.lock, it is generally recommended to include poetry.lock in version control.
+#   This is especially recommended for binary packages to ensure reproducibility, and is more
+#   commonly ignored for libraries.
+#   https://python-poetry.org/docs/basic-usage/#commit-your-poetrylock-file-to-version-control
+#poetry.lock
+# pdm
+#   Similar to Pipfile.lock, it is generally recommended to include pdm.lock in version control.
+#pdm.lock
+#   pdm stores project-wide configurations in .pdm.toml, but it is recommended to not include it
+#   in version control.
+#   https://pdm.fming.dev/#use-with-ide
+.pdm.toml
+# PEP 582; used by e.g. github.com/David-OConnor/pyflow and github.com/pdm-project/pdm
+__pypackages__/
+# Ignore weights & biases folder
+wandb/
+# Celery stuff
+celerybeat-schedule
+celerybeat.pid
+# SageMath parsed files
+*.sage.py
+# Environments
+.env
+.venv
+env/
+venv/
+ENV/
+env.bak/
+venv.bak/
+# Spyder project settings
+.spyderproject
+.spyproject
+# Rope project settings
+.ropeproject
+# mkdocs documentation
+/site
+# mypy
+.mypy_cache/
+.dmypy.json
+dmypy.json
+# Pyre type checker
+.pyre/
+# pytype static type analyzer
+.pytype/
+# Cython debug symbols
+cython_debug/
+# PyCharm
+#  JetBrains specific template is maintained in a separate JetBrains.gitignore that can
+#  be found at https://github.com/github/gitignore/blob/main/Global/JetBrains.gitignore
+#  and can be added to the global gitignore or merged into this file.  For a more nuclear
+#  option (not recommended) you can uncomment the following to ignore the entire idea folder.
+#.idea/
+.DS_Store

Dockerfile ADDED Viewed

	@@ -0,0 +1,11 @@

+FROM python:3.11
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+    PATH=/home/user/.local/bin:$PATH
+WORKDIR $HOME/app
+COPY --chown=user . $HOME/app
+COPY ./requirements.txt ~/app/requirements.txt
+RUN pip install -r requirements.txt
+COPY . .
+CMD ["chainlit", "run", "app.py", "--port", "7860"]

app.py ADDED Viewed

	@@ -0,0 +1,89 @@

+from operator import itemgetter
+import chainlit as cl
+from langchain.schema.runnable import RunnablePassthrough
+from langchain.vectorstores import FAISS
+from langchain.chains import RetrievalQA
+from langchain.chat_models import ChatOpenAI
+from langchain.prompts.chat import (
+    ChatPromptTemplate,
+    SystemMessagePromptTemplate,
+    HumanMessagePromptTemplate,
+)
+from utils import ArxivLoader, PineconeIndexer
+system_template = """
+Use the provided context to answer the user's query.
+You may not answer the user's query unless there is specific context in the following text.
+If you do not know the answer, or cannot answer, please respond with "I don't know".
+Context:
+{context}
+"""
+messages = [
+    SystemMessagePromptTemplate.from_template(system_template),
+    HumanMessagePromptTemplate.from_template("{question}"),
+]
+prompt = ChatPromptTemplate(messages=messages)
+chain_type_kwargs = {"prompt": prompt}
+@cl.author_rename
+def rename(orig_author: str):
+    rename_dict = {"RetrievalQA": "Learning about Nuclear Fission"}
+    return rename_dict.get(orig_author, orig_author)
+@cl.on_chat_start  # marks a function that will be executed at the start of a user session
+async def start_chat():
+    msg = cl.Message(content=f"Building Index...")
+    await msg.send()
+    # load documents from Arxiv
+    axloader = ArxivLoader()
+    axloader.main()
+    # build index in Pinecone
+    pi = PineconeIndexer()
+    pi.load_embedder()
+    pi.index_documents(axloader.documents)
+    retriever=pi.get_vectorstore().as_retriever()
+    print(pi.index.describe_index_stats())
+    # build llm
+    llm = ChatOpenAI(
+        model="gpt-3.5-turbo",
+        temperature=0
+    )
+    msg.content = f"Index built!"
+    await msg.send()
+    cl.user_session.set("llm", llm)
+    cl.user_session.set("retriever", retriever)
+@cl.on_message  # marks a function that should be run each time the chatbot receives a message from a user
+async def main(message: cl.Message):
+    llm = cl.user_session.get("llm")
+    retriever = cl.user_session.get("retriever")
+    retrieval_augmented_qa_chain = (
+        {"context": itemgetter("question") | retriever,
+        "question": itemgetter("question")
+        }
+        | RunnablePassthrough.assign(
+            context=itemgetter("context")
+        )
+        | {
+            "response": prompt  | llm,
+            "context": itemgetter("context"),
+        }
+    )
+    answer = retrieval_augmented_qa_chain.invoke({"question" : message.content})
+    await cl.Message(content=answer["response"].content).send()

chainlit.md ADDED Viewed

	@@ -0,0 +1,3 @@


1	+ # Pythonic RAGA with LangChain & Pinecone
2	+
3	+ This application leverages Chainlit, OpenAI, LangChain, Pinecone and Hugging Face to build a basic RAQA (Retrieval Augmented Question Answering) application based on a Pinecone index containing documents with arxiv papers about nuclear fission.

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+chainlit==0.7.700
+langchain==0.0.350
+openai==0.27.8
+tiktoken==0.4.0
+chainlit==0.7.700
+faiss-cpu==1.7.4
+pinecone-client
+arxiv
+pypdf

utils.py ADDED Viewed

	@@ -0,0 +1,182 @@

+import os
+from typing import List
+import pinecone
+from tqdm.auto import tqdm
+from uuid import uuid4
+import arxiv
+from langchain.document_loaders import PyPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings.openai import OpenAIEmbeddings
+from langchain.embeddings import CacheBackedEmbeddings
+from langchain.storage import LocalFileStore
+from langchain.vectorstores import Pinecone
+INDEX_BATCH_LIMIT = 100
+class CharacterTextSplitter:
+    def __init__(
+        self,
+        chunk_size: int = 1000,
+        chunk_overlap: int = 200,
+    ):
+        assert (
+            chunk_size > chunk_overlap
+        ), "Chunk size must be greater than chunk overlap"
+        self.chunk_size = chunk_size
+        self.chunk_overlap = chunk_overlap
+        self.text_splitter = RecursiveCharacterTextSplitter(
+            chunk_size = self.chunk_size, # the character length of the chunk
+            chunk_overlap = self.chunk_overlap, # the character length of the overlap between chunks
+            length_function = len, # the length function - in this case, character length (aka the python len() fn.)
+        )
+    def split(self, text: str) -> List[str]:
+        return self.text_splitter.split_text(text)
+class ArxivLoader:
+    def __init__(self, query : str = "Nuclear Fission", max_results : int = 5, encoding: str = "utf-8"):
+        """"""
+        self.query = query
+        self.max_results = max_results
+        self.paper_urls = []
+        self.documents = []
+        self.splitter = CharacterTextSplitter()
+    def retrieve_urls(self):
+        """"""
+        arxiv_client = arxiv.Client()
+        search = arxiv.Search(
+            query = self.query,
+            max_results = self.max_results,
+            sort_by = arxiv.SortCriterion.Relevance
+        )
+        for result in arxiv_client.results(search):
+            self.paper_urls.append(result.pdf_url)
+    def load_documents(self):
+        """"""
+        for paper_url in self.paper_urls:
+            loader = PyPDFLoader(paper_url)
+            self.documents.append(loader.load())
+    def format_document(self, document):
+        """"""
+        metadata = {
+            'source_document' : document.metadata["source"],
+            'page_number' : document.metadata["page"]
+        }
+        record_texts = self.splitter.split(document.page_content)
+        record_metadatas = [{
+            "chunk": j, "text": text, **metadata
+        } for j, text in enumerate(record_texts)]
+        return record_texts, record_metadatas
+    def main(self):
+        """"""
+        self.retrieve_urls()
+        self.load_documents()
+class PineconeIndexer:
+    def __init__(self, index_name : str = "arxiv-paper-index", metric : str = "cosine", n_dims : int = 1536):
+        """"""
+        pinecone.init(
+            api_key=os.environ["PINECONE_API_KEY"],
+            environment=os.environ["PINECONE_ENV"]
+            )
+        if index_name not in pinecone.list_indexes():
+            # we create a new index
+            pinecone.create_index(
+                name=index_name,
+                metric=metric,
+                dimension=n_dims
+            )
+        self.index = pinecone.Index(index_name)
+        self.arxiv_loader = ArxivLoader()
+    def load_embedder(self):
+        """"""
+        store = LocalFileStore("./cache/")
+        core_embeddings_model = OpenAIEmbeddings()
+        self.embedder = CacheBackedEmbeddings.from_bytes_store(
+            core_embeddings_model,
+            store,
+            namespace=core_embeddings_model.model
+        )
+    def upsert(self, texts, metadatas):
+        """"""
+        ids = [str(uuid4()) for _ in range(len(texts))]
+        embeds = self.embedder.embed_documents(texts)
+        self.index.upsert(vectors=zip(ids, embeds, metadatas))
+    def index_documents(self, documents, batch_limit : int = INDEX_BATCH_LIMIT):
+        """"""
+        texts = []
+        metadatas = []
+        # iterate through your top-level document
+        for i in tqdm(range(len(documents))):
+            # select single document object
+            for page in documents[i] :
+                record_texts, record_metadatas = self.arxiv_loader.format_document(page)
+                texts.extend(record_texts)
+                metadatas.extend(record_metadatas)
+                if len(texts) >= batch_limit:
+                    self.upsert(texts, metadatas)
+                    texts = []
+                    metadatas = []
+        if len(texts) > 0:
+            self.upsert(texts, metadatas)
+    def get_vectorstore(self):
+        """"""
+        return Pinecone(self.index, self.embedder.embed_query, "text")
+if __name__ == "__main__":
+    print("-------------- Loading Arxiv --------------")
+    axloader = ArxivLoader()
+    axloader.retrieve_urls()
+    axloader.load_documents()
+    print("\n-------------- Splitting sample doc --------------")
+    sample_doc = axloader.documents[0]
+    sample_page = sample_doc[0]
+    splitter = CharacterTextSplitter()
+    chunks = splitter.split(sample_page.page_content)
+    print(len(chunks))
+    print(chunks[0])
+    print("\n-------------- testing pinecode indexer --------------")
+    pi = PineconeIndexer()
+    pi.load_embedder()
+    pi.index_documents(axloader.documents)
+    print(pi.index.describe_index_stats())