Spaces:

umanggarg
/

cartographer

Running

App Files Files Community

umanggarg commited on 17 days ago

Commit

be5e148

1 Parent(s): 52fc686

Use Voyage embeddings by default

Browse files

Files changed (5) hide show

Dockerfile +3 -3
README.md +12 -7
backend/config.py +11 -11
ingestion/embedder.py +5 -5
render.yaml +6 -2

Dockerfile CHANGED Viewed

@@ -15,8 +15,8 @@
 # By downloading it during the Docker build, it's baked into the image layer.
 # Subsequent starts are instant — the model is already on disk.
 #
-# The embedding model (nomic-embed-code) is NOT downloaded here — it runs via
-# the Nomic API (no local file needed). That's how we stay under the RAM limit.
 #
 # ARCHITECTURE
 # ────────────
@@ -47,7 +47,7 @@ RUN pip install --user --no-cache-dir -r requirements.txt
 # Pre-download the re-ranker model into the image layer.
 # This bakes the ~80MB model into the image so cold starts don't download it.
-# The Nomic embedding model is NOT downloaded here — it lives on Nomic's API.
 RUN python -c "\
 from sentence_transformers import CrossEncoder; \
 print('Pre-downloading re-ranker...'); \

 # By downloading it during the Docker build, it's baked into the image layer.
 # Subsequent starts are instant — the model is already on disk.
 #
+# The embedding model is NOT downloaded here — Voyage/Gemini/Nomic run via API
+# (no local file needed). That's how we stay under the RAM limit.
 #
 # ARCHITECTURE
 # ────────────
 # Pre-download the re-ranker model into the image layer.
 # This bakes the ~80MB model into the image so cold starts don't download it.
+# The embedding model is NOT downloaded here — it lives behind a hosted API.
 RUN python -c "\
 from sentence_transformers import CrossEncoder; \
 print('Pre-downloading re-ranker...'); \

README.md CHANGED Viewed

@@ -42,7 +42,7 @@ GitHub URL
                          Falls back to line-windowed sliding chunks for unsupported languages
   → ingestion_service.py (Optional) LLM generates a 1–2 sentence description per chunk
                          prepended before embedding — Anthropic's "contextual retrieval"
-  → embedder.py          Nomic nomic-embed-text-v1.5 (768-dim) via API · optional Voyage voyage-code-3 (1024-dim)
   → qdrant_store.py      Each chunk stored with: dense vector + sparse BM25 vector + full payload metadata
 ```
@@ -201,8 +201,8 @@ The ⟳ button in the sidebar triggers a re-index with LLM-generated chunk descr
 | Backend | FastAPI + uvicorn | Async ASGI, 20+ endpoints, SSE streaming throughout |
 | Frontend | React + Vite | Component-based UI, localStorage sessions, SSE token streaming |
 | Vector DB | Qdrant Cloud | Native hybrid search (dense + sparse), free 1 GB tier |
-| Embeddings (default) | Nomic `nomic-embed-text-v1.5` | 768-dim, via Nomic API (zero local RAM) |
-| Embeddings (optional) | Voyage `voyage-code-3` | 1024-dim, code-optimised, 200M tokens/month free |
 | Code parsing | tree-sitter | Multi-language AST — Python, JS, TS, Go, Rust, Java |
 | Reranker (primary) | Cohere `rerank-v3.5` | Cross-encoder, API, 1000 calls/month free |
 | Reranker (fallback) | `ms-marco-MiniLM-L-6-v2` | Local cross-encoder, baked into Docker image |
@@ -264,11 +264,16 @@ cd ui && npm install && npm run dev
 # Vector DB (required)
 QDRANT_URL=          # Qdrant Cloud cluster URL
 QDRANT_API_KEY=      # Qdrant Cloud API key
-QDRANT_COLLECTION=   # e.g. cartographer_nomic
-# Embeddings (one required)
-NOMIC_API_KEY=       # Default — free at atlas.nomic.ai
-VOYAGE_API_KEY=      # Optional upgrade — free at voyageai.com (set EMBEDDING_MODEL=voyage-code-3)
 # LLM (at least one required)
 CEREBRAS_API_KEY=    # Fastest — free at cloud.cerebras.ai (1M tok/day)

                          Falls back to line-windowed sliding chunks for unsupported languages
   → ingestion_service.py (Optional) LLM generates a 1–2 sentence description per chunk
                          prepended before embedding — Anthropic's "contextual retrieval"
+  → embedder.py          Voyage voyage-code-3 (1024-dim) via API · Gemini/Nomic fallback
   → qdrant_store.py      Each chunk stored with: dense vector + sparse BM25 vector + full payload metadata
 ```
 | Backend | FastAPI + uvicorn | Async ASGI, 20+ endpoints, SSE streaming throughout |
 | Frontend | React + Vite | Component-based UI, localStorage sessions, SSE token streaming |
 | Vector DB | Qdrant Cloud | Native hybrid search (dense + sparse), free 1 GB tier |
+| Embeddings (default) | Voyage `voyage-code-3` | 1024-dim, code-optimised, 200M tokens/month free |
+| Embeddings (fallback) | Gemini `gemini-embedding-001` | 768-dim, via Gemini API; good quality but tighter free-tier limits |
 | Code parsing | tree-sitter | Multi-language AST — Python, JS, TS, Go, Rust, Java |
 | Reranker (primary) | Cohere `rerank-v3.5` | Cross-encoder, API, 1000 calls/month free |
 | Reranker (fallback) | `ms-marco-MiniLM-L-6-v2` | Local cross-encoder, baked into Docker image |
 # Vector DB (required)
 QDRANT_URL=          # Qdrant Cloud cluster URL
 QDRANT_API_KEY=      # Qdrant Cloud API key
+QDRANT_COLLECTION=github_repos_voyage  # new 1024-dim collection for Voyage
+# Embeddings
+VOYAGE_API_KEY=      # Default — free at voyageai.com
+EMBEDDING_MODEL=voyage-code-3
+EMBEDDING_DIM=1024
+# Optional embedding fallbacks
+GEMINI_API_KEY=      # Also used for LLMs; set EMBEDDING_MODEL=gemini-embedding-001 and EMBEDDING_DIM=768
+NOMIC_API_KEY=       # Legacy fallback; set EMBEDDING_MODEL=nomic-embed-text-v1.5 and EMBEDDING_DIM=768
 # LLM (at least one required)
 CEREBRAS_API_KEY=    # Fastest — free at cloud.cerebras.ai (1M tok/day)

backend/config.py CHANGED Viewed

@@ -25,7 +25,7 @@ class Settings:
     # ── Vector DB ─────────────────────────────────────────────────────────────
     qdrant_url: str         = os.getenv("QDRANT_URL", "")
     qdrant_api_key: str     = os.getenv("QDRANT_API_KEY", "")
-    qdrant_collection: str  = os.getenv("QDRANT_COLLECTION", "github_repos")
     # ── GitHub ────────────────────────────────────────────────────────────────
     # Optional — without it you get 60 API req/hr; with it 5,000 req/hr
@@ -34,25 +34,25 @@ class Settings:
     # ── Embeddings ────────────────────────────────────────────────────────────
     # Three embedding providers, selected at startup by EMBEDDING_MODEL:
     #
-    # 1. Gemini (default — EMBEDDING_MODEL contains "gemini", needs GEMINI_API_KEY)
-    #    gemini-embedding-001: 768-dim output via MRL, generous free tier.
-    #    Re-uses the same GEMINI_API_KEY used for the LLM — no extra signup.
-    #    Free at https://aistudio.google.com.
-    #
-    # 2. Voyage AI (EMBEDDING_MODEL contains "voyage", needs VOYAGE_API_KEY)
     #    voyage-code-3: code-optimised, 1024-dim, 200M tokens/month free.
-    #    ⚠️  Requires EMBEDDING_DIM=1024 and a NEW Qdrant collection — dims
     #    are incompatible with 768-dim collections.
     #
-    # 3. Nomic (legacy fallback — NOMIC_API_KEY set)
     #    nomic-embed-text-v1.5: 768-dim. Free quota is 10M tokens TOTAL
     #    (not per month) — easy to exhaust across a few large indexes.
     #
     # EMBEDDING_DIM must match the chosen model exactly.
     nomic_api_key: str      = os.getenv("NOMIC_API_KEY", "")
     voyage_api_key: str     = os.getenv("VOYAGE_API_KEY", "")
-    embedding_model: str    = os.getenv("EMBEDDING_MODEL", "gemini-embedding-001")
-    embedding_dim: int      = int(os.getenv("EMBEDDING_DIM", "768"))
     gemini_embedding_batch_size: int = int(os.getenv("GEMINI_EMBEDDING_BATCH_SIZE", "8"))
     gemini_embedding_min_interval: float = float(os.getenv("GEMINI_EMBEDDING_MIN_INTERVAL", "4.0"))
     gemini_embedding_retries: int = int(os.getenv("GEMINI_EMBEDDING_RETRIES", "6"))

     # ── Vector DB ─────────────────────────────────────────────────────────────
     qdrant_url: str         = os.getenv("QDRANT_URL", "")
     qdrant_api_key: str     = os.getenv("QDRANT_API_KEY", "")
+    qdrant_collection: str  = os.getenv("QDRANT_COLLECTION", "github_repos_voyage")
     # ── GitHub ────────────────────────────────────────────────────────────────
     # Optional — without it you get 60 API req/hr; with it 5,000 req/hr
     # ── Embeddings ────────────────────────────────────────────────────────────
     # Three embedding providers, selected at startup by EMBEDDING_MODEL:
     #
+    # 1. Voyage AI (default — EMBEDDING_MODEL contains "voyage", needs VOYAGE_API_KEY)
     #    voyage-code-3: code-optimised, 1024-dim, 200M tokens/month free.
+    #    Requires EMBEDDING_DIM=1024 and a NEW Qdrant collection — dims
     #    are incompatible with 768-dim collections.
     #
+    # 2. Gemini (EMBEDDING_MODEL contains "gemini", needs GEMINI_API_KEY)
+    #    gemini-embedding-001: 768-dim output via MRL. Re-uses the same
+    #    GEMINI_API_KEY used for the LLM, but free-tier RPM/TPM limits are
+    #    too tight for LangChain-scale repos.
+    #
+    # 3. Nomic (legacy fallback — EMBEDDING_MODEL contains "nomic")
     #    nomic-embed-text-v1.5: 768-dim. Free quota is 10M tokens TOTAL
     #    (not per month) — easy to exhaust across a few large indexes.
     #
     # EMBEDDING_DIM must match the chosen model exactly.
     nomic_api_key: str      = os.getenv("NOMIC_API_KEY", "")
     voyage_api_key: str     = os.getenv("VOYAGE_API_KEY", "")
+    embedding_model: str    = os.getenv("EMBEDDING_MODEL", "voyage-code-3")
+    embedding_dim: int      = int(os.getenv("EMBEDDING_DIM", "1024"))
     gemini_embedding_batch_size: int = int(os.getenv("GEMINI_EMBEDDING_BATCH_SIZE", "8"))
     gemini_embedding_min_interval: float = float(os.getenv("GEMINI_EMBEDDING_MIN_INTERVAL", "4.0"))
     gemini_embedding_retries: int = int(os.getenv("GEMINI_EMBEDDING_RETRIES", "6"))

ingestion/embedder.py CHANGED Viewed

@@ -12,18 +12,18 @@ THREE PROVIDERS, ONE INTERFACE
 ──────────────────────────────
 Provider is selected from EMBEDDING_MODEL at init:
-  EMBEDDING_MODEL contains "voyage" + VOYAGE_API_KEY set
     → Voyage AI: code-optimised, 1024-dim, 200M tokens/month free.
       voyage-code-3 is specifically trained on code and outperforms
       general-purpose embedders on code retrieval benchmarks.
-      ⚠️  Requires EMBEDDING_DIM=1024 and a new Qdrant collection.
-  EMBEDDING_MODEL contains "gemini" + GEMINI_API_KEY set  (default)
     → Google Gemini: gemini-embedding-001, 768-dim output (configurable
       via MRL), generous free tier. Re-uses the same GEMINI_API_KEY we
-      use for the LLM — no separate signup.
-  NOMIC_API_KEY set  (legacy fallback)
     → Nomic API: nomic-embed-text-v1.5, 768-dim. Free quota is 10M
       tokens total — easy to exhaust across a few large repo indexes.

 ──────────────────────────────
 Provider is selected from EMBEDDING_MODEL at init:
+  EMBEDDING_MODEL contains "voyage" + VOYAGE_API_KEY set  (default)
     → Voyage AI: code-optimised, 1024-dim, 200M tokens/month free.
       voyage-code-3 is specifically trained on code and outperforms
       general-purpose embedders on code retrieval benchmarks.
+      Requires EMBEDDING_DIM=1024 and a new Qdrant collection.
+  EMBEDDING_MODEL contains "gemini" + GEMINI_API_KEY set
     → Google Gemini: gemini-embedding-001, 768-dim output (configurable
       via MRL), generous free tier. Re-uses the same GEMINI_API_KEY we
+      use for the LLM, but free-tier limits are tight for huge repos.
+  EMBEDDING_MODEL contains "nomic" + NOMIC_API_KEY set  (legacy fallback)
     → Nomic API: nomic-embed-text-v1.5, 768-dim. Free quota is 10M
       tokens total — easy to exhaust across a few large repo indexes.

render.yaml CHANGED Viewed

@@ -26,16 +26,20 @@ services:
         sync: false          # set manually in Render dashboard
       - key: QDRANT_API_KEY
         sync: false
       - key: GROQ_API_KEY
         sync: false
       - key: ANTHROPIC_API_KEY
         sync: false
       - key: GITHUB_TOKEN
         sync: false
       - key: EMBEDDING_MODEL
-        value: sentence-transformers/all-MiniLM-L6-v2
       - key: EMBEDDING_DIM
-        value: "384"
       - key: TOP_K
         value: "6"
       # HuggingFace cache dir — Render gives 1GB ephemeral disk

         sync: false          # set manually in Render dashboard
       - key: QDRANT_API_KEY
         sync: false
+      - key: QDRANT_COLLECTION
+        value: github_repos_voyage
       - key: GROQ_API_KEY
         sync: false
       - key: ANTHROPIC_API_KEY
         sync: false
+      - key: VOYAGE_API_KEY
+        sync: false
       - key: GITHUB_TOKEN
         sync: false
       - key: EMBEDDING_MODEL
+        value: voyage-code-3
       - key: EMBEDDING_DIM
+        value: "1024"
       - key: TOP_K
         value: "6"
       # HuggingFace cache dir — Render gives 1GB ephemeral disk