raazkumar
/

ml-intern-local-fork

raazkumar commited on 2 days ago

Commit

091c7e0

verified ·

1 Parent(s): 30f7cdb

Upload production/docker-compose.m2.yml

Files changed (1) hide show

production/docker-compose.m2.yml CHANGED Viewed

@@ -1,9 +1,10 @@
 version: "3.8"
-# Optimized for MacBook M2 Pro Max 96GB
 # - MLX local inference runs natively on Metal (host, not in Docker)
 # - Redis, Postgres, API server in lightweight containers
-# - NIM and Cloudflare as cloud fallback
 # - Everything runs natively on Apple Silicon
 services:
@@ -25,18 +26,22 @@ services:
       - BUDGET_USD_PER_SESSION=10.0
       - CIRCUIT_BREAKER_FAILURE_THRESHOLD=3
       - CIRCUIT_BREAKER_RECOVERY_TIMEOUT=30
       # NIM primary (cloud GPU)
       - NIM_API_BASE=https://integrate.api.nvidia.com/v1
       - NVIDIA_API_KEY=${NVIDIA_API_KEY:-}
       # Cloudflare secondary fallback
       - CLOUDFLARE_API_KEY=${CLOUDFLARE_API_KEY:-}
       - CLOUDFLARE_ACCOUNT_ID=${CLOUDFLARE_ACCOUNT_ID:-}
-      # Fallback config
-      - FALLBACK_ENABLED=true
-      - FALLBACK_PRIMARY=nim
-      - FALLBACK_SECONDARY=cloudflare
       # MLX local (runs on host Metal, not in container)
-      - MLX_ENABLED=false
       - MLX_API_BASE=http://host.docker.internal:8000/v1
       - LOG_LEVEL=INFO
     depends_on:

 version: "3.8"
+# Optimized for MacBook M2 Pro Max 96GB with Gemma 4 support
 # - MLX local inference runs natively on Metal (host, not in Docker)
+# - Gemma 4 31B-BF16 fits comfortably in 96GB unified memory
 # - Redis, Postgres, API server in lightweight containers
+# - NIM → Cloudflare → Gemini → MLX fallback chain
 # - Everything runs natively on Apple Silicon
 services:
       - BUDGET_USD_PER_SESSION=10.0
       - CIRCUIT_BREAKER_FAILURE_THRESHOLD=3
       - CIRCUIT_BREAKER_RECOVERY_TIMEOUT=30
+      # Fallback chain: NIM → Cloudflare → Gemini → MLX
+      - FALLBACK_ENABLED=true
+      - FALLBACK_PRIMARY=nim
+      - FALLBACK_SECONDARY=cloudflare
+      - FALLBACK_TERTIARY=gemini
       # NIM primary (cloud GPU)
       - NIM_API_BASE=https://integrate.api.nvidia.com/v1
       - NVIDIA_API_KEY=${NVIDIA_API_KEY:-}
       # Cloudflare secondary fallback
       - CLOUDFLARE_API_KEY=${CLOUDFLARE_API_KEY:-}
       - CLOUDFLARE_ACCOUNT_ID=${CLOUDFLARE_ACCOUNT_ID:-}
+      # Google Gemini tertiary fallback
+      - GEMINI_API_KEY=${GEMINI_API_KEY:-}
+      - GEMINI_API_BASE=https://generativelanguage.googleapis.com/v1beta/openai
       # MLX local (runs on host Metal, not in container)
+      - MLX_ENABLED=${MLX_ENABLED:-false}
       - MLX_API_BASE=http://host.docker.internal:8000/v1
       - LOG_LEVEL=INFO
     depends_on: