added langchain

Files changed (3) hide show

README_gemini_excel_rag.md +81 -0
gemini_excel_rag.py +217 -0
gemini_excel_requirements.txt +22 -0

README_gemini_excel_rag.md ADDED Viewed

	@@ -0,0 +1,81 @@

+# Gemini Flash 2.0 Excel RAG 系统
+这个项目利用 LangChain 调用 Google 的 Gemini Flash 2.0 模型，并使用 markitdown 库作为 Excel 导入工具，将数据存储到本地的向量数据库中。系统能够通过向量数据库中的 Excel 表格内容，以 RAG (检索增强生成) 的方式增强模型回答的准确性。
+## 功能特点
+- 使用 Google 的 Gemini Flash 2.0 大语言模型
+- 支持导入 Excel 文件到向量数据库
+- 基于导入的 Excel 数据进行问答
+- 使用 RAG 技术增强回答的准确性和相关性
+- 提供友好的 Gradio Web 界面
+## 安装步骤
+1. 克隆或下载本项目代码
+2. 安装所需依赖包：
+```bash
+pip install -r gemini_excel_requirements.txt
+```
+3. 获取 Google API 密钥：
+   - 访问 [Google AI Studio](https://makersuite.google.com/app/apikey)
+   - 创建一个 API 密钥
+   - 在 `gemini_excel_rag.py` 文件中替换 `YOUR_GOOGLE_API_KEY` 为您的实际 API 密钥
+## 使用方法
+1. 运行应用程序：
+```bash
+python gemini_excel_rag.py
+```
+2. 在浏览器中访问显示的本地地址（通常是 http://127.0.0.1:7860）
+3. 使用界面：
+   - **导入 Excel 数据**：上传 Excel 文件并处理导入到向量数据库
+   - **查询问答**：输入问题，系统会基于导入的 Excel 数据回答
+   - **查看向量库内容**：搜索向量库中的内容，查看已导入的数据
+## 工作原理
+1. **数据导入流程**：
+   - 上传 Excel 文件
+   - 使用 pandas 读取 Excel 内容
+   - 将每行数据转换为文本格式
+   - 存储到 Chroma 向量数据库
+2. **查询回答流程**：
+   - 用户输入问题
+   - 系统在向量数据库中检索相关内容
+   - Gemini Flash 2.0 模型结合检索内容生成回答
+   - 返回增强后的回答给用户
+## 自定义配置
+- 修改嵌入模型：可以在代码中更改 `embedding_model` 的初始化参数
+- 调整文本分割参数：修改 `text_splitter` 的参数以适应不同的数据格式
+- 更改 RAG 检索数量：在 `retriever` 的 `search_kwargs` 中调整 `k` 值
+## 注意事项
+- 确保您有足够的网络连接以访问 Google API
+- 大型 Excel 文件处理可能需要较长时间
+- 向量数据库存储在本地 `./vector_store` 目录中
+## 依赖库
+- langchain：用于构建 RAG 流程
+- langchain-google-genai：连接 Gemini 模型
+- gradio：提供 Web 界面
+- pandas：处理 Excel 文件
+- chromadb：向量数据库
+- sentence-transformers：文本嵌入模型
+- markitdown：Excel 内容提取工具
+## 许可证
+本项目使用 MIT 许可证。

gemini_excel_rag.py ADDED Viewed

	@@ -0,0 +1,217 @@

+import os
+import gradio as gr
+import torch
+from langchain_google_genai import ChatGoogleGenerativeAI
+from langchain.prompts import ChatPromptTemplate
+from langchain.schema.runnable import RunnablePassthrough
+from langchain.schema.output_parser import StrOutputParser
+from langchain_community.vectorstores import Chroma
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_core.documents import Document
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from markitdown import ExcelExtractor
+import pandas as pd
+import numpy as np
+import re
+# 设置Google API密钥
+os.environ["GOOGLE_API_KEY"] = "YOUR_GOOGLE_API_KEY"  # 请替换为您的API密钥
+# 设置向量数据库存储路径
+VECTOR_STORE_PATH = "./vector_store"
+# 初始化嵌入模型
+embedding_model = HuggingFaceEmbeddings(model_name="BAAI/bge-small-zh-v1.5")
+# 初始化文本分割器
+text_splitter = RecursiveCharacterTextSplitter(
+    chunk_size=500,
+    chunk_overlap=50,
+    separators=["\n\n", "\n", "。", "！", "？", ".", "!", "?", " ", ""]
+)
+# 初始化向量数据库
+def get_vectorstore():
+    """获取向量数据库，如果不存在则创建一个空的"""
+    if os.path.exists(VECTOR_STORE_PATH):
+        return Chroma(persist_directory=VECTOR_STORE_PATH, embedding_function=embedding_model)
+    else:
+        vectorstore = Chroma.from_documents(
+            documents=[Document(page_content="初始化文档", metadata={"source": "初始化"})],
+            embedding=embedding_model,
+            persist_directory=VECTOR_STORE_PATH
+        )
+        vectorstore.persist()
+        return vectorstore
+# 初始化LLM模型
+def get_llm():
+    """初始化Gemini Flash 2.0模型"""
+    return ChatGoogleGenerativeAI(
+        model="gemini-flash-2.0",
+        temperature=0.7,
+        convert_system_message_to_human=True,
+        max_output_tokens=2048
+    )
+# 创建RAG链
+def create_rag_chain():
+    """创建RAG检索链"""
+    vectorstore = get_vectorstore()
+    retriever = vectorstore.as_retriever(search_kwargs={"k": 5})
+    # 创建提示模板
+    template = """
+    你是一个专业的数据分析助手。请基于以下检索到的Excel表格数据回答用户的问题。
+    如果检索内容中没有相关信息，请诚实地告知用户你不知道，不要编造答案。
+    检索到的Excel表格数据:
+    {context}
+    用户问题: {question}
+    请提供详细、准确的回答，并在适当的情况下引用数据来源。
+    """
+    prompt = ChatPromptTemplate.from_template(template)
+    # 创建RAG链
+    llm = get_llm()
+    rag_chain = (
+        {"context": retriever, "question": RunnablePassthrough()}
+        | prompt
+        | llm
+        | StrOutputParser()
+    )
+    return rag_chain
+# 处理Excel文件并添加到向量数据库
+def process_excel_file(file_path):
+    """处理Excel文件并添加到向量数据库"""
+    try:
+        # 使用markitdown提取Excel内容
+        extractor = ExcelExtractor()
+        excel_content = extractor.extract(file_path)
+        # 将Excel内容分割成块
+        docs = text_splitter.split_text(excel_content)
+        documents = [Document(page_content=doc, metadata={"source": file_path}) for doc in docs]
+        # 添加到向量数据库
+        vectorstore = get_vectorstore()
+        vectorstore.add_documents(documents)
+        vectorstore.persist()
+        return f"成功处理Excel文件: {file_path}，添加了{len(documents)}个文档块到向量数据库"
+    except Exception as e:
+        return f"处理Excel文件时出错: {str(e)}"
+# 使用pandas直接处理Excel文件并添加到向量数据库
+def process_excel_with_pandas(file_path):
+    """使用pandas处理Excel文件并添加到向量数据库"""
+    try:
+        # 读取Excel文件
+        df = pd.read_excel(file_path)
+        # 将每个表格行转换为文本
+        documents = []
+        for idx, row in df.iterrows():
+            # 将行转换为字符串格式
+            row_text = "\n".join([f"{col}: {val}" for col, val in row.items() if not pd.isna(val)])
+            # 创建文档
+            doc = Document(
+                page_content=row_text,
+                metadata={
+                    "source": file_path,
+                    "row": idx,
+                    "sheet": "Sheet1"  # 如果需要处理多个sheet，可以在这里修改
+                }
+            )
+            documents.append(doc)
+        # 添加到向量数据库
+        vectorstore = get_vectorstore()
+        vectorstore.add_documents(documents)
+        vectorstore.persist()
+        return f"成功处理Excel文件: {file_path}，添加了{len(documents)}个行记录到向量数据库"
+    except Exception as e:
+        return f"处理Excel文件时出错: {str(e)}"
+# 查询向量数据库
+def query_vectorstore(query, k=5):
+    """直接查询向量数据库"""
+    vectorstore = get_vectorstore()
+    results = vectorstore.similarity_search(query, k=k)
+    return results
+# 使用RAG链回答问题
+def answer_question(question):
+    """使用RAG链回答问题"""
+    rag_chain = create_rag_chain()
+    response = rag_chain.invoke(question)
+    return response
+# 创建Gradio界面
+def create_interface():
+    with gr.Blocks(title="Gemini Flash 2.0 Excel RAG") as demo:
+        gr.HTML("<h1 style='text-align: center'>Gemini Flash 2.0 Excel RAG 系统</h1>")
+        with gr.Tab("导入Excel数据"):
+            with gr.Row():
+                excel_file = gr.File(label="上传Excel文件")
+                process_btn = gr.Button("处理并导入到向量数据库")
+            output_msg = gr.Textbox(label="处理结果")
+            process_btn.click(
+                process_excel_with_pandas,
+                inputs=[excel_file],
+                outputs=[output_msg]
+            )
+        with gr.Tab("查询问答"):
+            with gr.Row():
+                question_input = gr.Textbox(label="输入问题", placeholder="请输入您的问题...")
+                submit_btn = gr.Button("提交")
+            answer_output = gr.Textbox(label="回答", lines=10)
+            submit_btn.click(
+                answer_question,
+                inputs=[question_input],
+                outputs=[answer_output]
+            )
+        with gr.Tab("查看向量库内容"):
+            with gr.Row():
+                search_input = gr.Textbox(label="搜索关键词")
+                search_btn = gr.Button("搜索")
+                k_slider = gr.Slider(minimum=1, maximum=20, value=5, step=1, label="返回结果数量")
+            search_output = gr.JSON(label="搜索结果")
+            def format_search_results(query, k):
+                results = query_vectorstore(query, k=int(k))
+                formatted_results = []
+                for doc in results:
+                    formatted_results.append({
+                        "content": doc.page_content,
+                        "metadata": doc.metadata,
+                        "score": doc.metadata.get("score", "N/A")
+                    })
+                return formatted_results
+            search_btn.click(
+                format_search_results,
+                inputs=[search_input, k_slider],
+                outputs=[search_output]
+            )
+    return demo
+# 主函数
+def main():
+    demo = create_interface()
+    demo.launch(share=False)
+if __name__ == "__main__":
+    main()

gemini_excel_requirements.txt ADDED Viewed

	@@ -0,0 +1,22 @@

+# 基础依赖
+gradio>=4.0.0
+torch>=2.0.0
+pandas>=2.0.0
+numpy>=1.24.0
+# LangChain相关依赖
+langchain>=0.1.0
+langchain-google-genai>=0.0.5
+langchain-community>=0.0.13
+langchain-core>=0.1.10
+# 向量数据库相关
+chromadb>=0.4.18
+sentence-transformers>=2.2.2
+# Excel处理相关
+markitdown>=0.1.0
+openpyxl>=3.1.2
+# 嵌入模型
+huggingface-hub>=0.19.0