Spaces:

axentx
/

surrogate-1

Runtime error

Ashira Pitchayapakayakul

fix: strip Mac /usr/bin/* hardcoded paths + expand dataset-enrich to 21 sources

023ab84 12 days ago

17.5 kB

	#!/usr/bin/env bash
	# AI Fallback Chain (cost-optimized, cloud-only, no local LLM)
	#
	# Priority chain:
	# 1. Claude Opus 4.7 via Max subscription (primary, flat $100/mo)
	# 2. Claude Sonnet 4.6 via Max subscription (separate quota pool!)
	# 3. OpenRouter pay-per-use (cheap+capable non-Sonnet picks)
	# 4. Gemini 2.5 FL FREE 1000/day
	# 5. Groq Llama-3.3 FREE 1000/day
	#
	# Usage:
	# ai-fallback.sh "your question"
	# ai-fallback.sh --force gpt5 "your question"
	# ai-fallback.sh --tier cheap "your question" # OpenRouter uses DeepSeek
	# ai-fallback.sh --skip claude-opus "your question"
	set -e

	# Source API keys FIRST — load BOTH env files (hermes + claude).
	# Order matters: claude.env first, hermes.env wins on conflict
	# (hermes has newer keys like GITHUB_MODELS_TOKEN, SAMBANOVA_API_KEY, CLOUDFLARE_*)
	# shellcheck disable=SC1090
	set -a
	[ -f "$HOME/.surrogate/.env" ] && . "$HOME/.surrogate/.env"
	[ -f "$HOME/.hermes/.env" ] && . "$HOME/.hermes/.env"
	set +a

	QUERY=""
	FORCE=""
	SKIP=""
	VERBOSE=0
	TASK=""
	export OR_TIER=""

	while [ $# -gt 0 ]; do
	case "$1" in
	--force) FORCE="$2"; shift 2 ;;
	--skip) SKIP="$2"; shift 2 ;;
	--tier) export OR_TIER="$2"; shift 2 ;;
	--task) TASK="$2"; shift 2 ;;
	--cheap) export OR_TIER="cheap"; shift ;;
	--fast) export OR_TIER="fast"; shift ;;
	--balanced) export OR_TIER="balanced"; shift ;;
	--premium) export OR_TIER="premium"; shift ;;
	-v\|--verbose) VERBOSE=1; shift ;;
	*) QUERY="$QUERY $1"; shift ;;
	esac
	done
	QUERY=$(echo "$QUERY" \| sed 's/^ *//')
	[ -z "$QUERY" ] && { head -15 "$0"; exit 1; }

	# --task <type> — pick the strongest free model per provider for the task.
	# Sets per-provider env vars that try_* functions read (bridge --model alias).
	# Auto-detect if not provided: code keywords → coding, reasoning keywords → reasoning.
	if [ -z "$TASK" ]; then
	q_lower=$(echo "$QUERY" \| /usr/bin/tr '[:upper:]' '[:lower:]')
	if echo "$q_lower" \| grep -qE "code\|function\|implement\|refactor\|bug\|class\|method\|api\|sql\|terraform\|cloudformation\|dockerfile\|kubernetes\|yaml\|typescript\|javascript\|python\|rust\|golang"; then
	TASK="coding"
	elif echo "$q_lower" \| grep -qE "analyze\|reason\|explain why\|compare\|evaluate\|architect\|design\|trade-?off\|deep\|think step\|proof\|calculate\|complex"; then
	TASK="reasoning"
	fi
	fi

	case "$TASK" in
	coding)
	# Code = Codestral (GitHub, Mistral) / DeepSeek-V3.1 (SambaNova) / Qwen Coder (local)
	export GITHUB_MODEL="codestral" ; export SAMBANOVA_MODEL="deepseek"
	export CLOUDFLARE_MODEL="deepseek" ; export GROQ_MODEL="qwen"
	export LOCAL_MODEL="qwen-coder"
	;;
	reasoning)
	# Reasoning = DeepSeek R1 (GitHub, <think> CoT) / Grok 3 / DeepSeek R1 distill (CF)
	export GITHUB_MODEL="reasoning" ; export SAMBANOVA_MODEL="deepseek-latest"
	export CLOUDFLARE_MODEL="reasoning" ; export GROQ_MODEL="qwen"
	export LOCAL_MODEL="granite"
	;;
	fast)
	# Fast = smallest/quickest tier per provider
	export GITHUB_MODEL="mini" ; export SAMBANOVA_MODEL="fast"
	export CLOUDFLARE_MODEL="fast" ; export GROQ_MODEL="fast"
	export LOCAL_MODEL="tiny"
	;;
	long-context\|long\|kimi)
	# 200k+ context — Kimi on CF, gpt-oss-120b elsewhere
	export GITHUB_MODEL="llama405" ; export SAMBANOVA_MODEL="gpt-oss"
	export CLOUDFLARE_MODEL="kimi" ; export GROQ_MODEL="gpt-oss"
	export LOCAL_MODEL="granite"
	;;
	creative\|chat\|*)
	# Default — smartest general-purpose free model per provider
	export GITHUB_MODEL="gpt-4o" ; export SAMBANOVA_MODEL="llama70"
	export CLOUDFLARE_MODEL="gpt-oss" ; export GROQ_MODEL="llama70"
	export LOCAL_MODEL="granite"
	;;
	esac

	# --- Semantic RAG context injection (embedding-powered) ---
	# For coding/reasoning/creative tasks, fetch top-3 semantically similar docs
	# from embeddings.db and prepend to QUERY. ~50ms overhead, improves grounding.
	if [[ "$TASK" == "coding" \|\| "$TASK" == "reasoning" \|\| "$TASK" == "creative" ]]; then
	if [[ -f "$HOME/.surrogate/embeddings.db" ]]; then
	EMB_COUNT=$(/usr/bin/sqlite3 "$HOME/.surrogate/embeddings.db" 'SELECT COUNT(*) FROM embeddings' 2>/dev/null \|\| echo 0)
	if [[ "$EMB_COUNT" -ge 100 ]]; then
	SEM_CONTEXT=$(python3 "$HOME/.surrogate/bin/embed-doc.py" --query "$QUERY" 2>/dev/null \| head -15)
	if [[ -n "$SEM_CONTEXT" ]]; then
	QUERY="=== RAG CONTEXT (top-5 semantic matches from knowledge base) ===
	$SEM_CONTEXT

	=== TASK ===
	$QUERY"
	fi
	fi
	fi
	fi

	log() { [ $VERBOSE -eq 1 ] && echo "[$(date +%H:%M:%S)] $*" >&2; }

	# Capture successful response → log to knowledge base (non-blocking)
	save_response() {
	local provider="$1" model="$2" response="$3"
	[ -z "$response" ] && return
	( "$HOME/.surrogate/bin/log-interaction.sh" "$QUERY" "$response" "$provider" "$model" > /dev/null 2>&1 & ) \|\| true
	}

	# --- System prompt from knowledge base + auto code-search if code query ---
	build_system_prompt() {
	local kb="" profile="" code_ctx="" q_lower
	[ -f "$HOME/.surrogate/memory/knowledge_index.md" ] && kb="$(head -50 $HOME/.surrogate/memory/knowledge_index.md)"
	[ -f "$HOME/.surrogate/memory/user_profile.md" ] && profile="$(cat $HOME/.surrogate/memory/user_profile.md)"

	q_lower=$(echo "$QUERY" \| /usr/bin/tr '[:upper:]' '[:lower:]')
	local is_generate=0 is_code=0
	echo "$q_lower" \| grep -qE "code\|function\|implement\|refactor\|bug\|error\|class\|method\|api\|endpoint\|schema\|model\|service\|controller\|middleware\|auth\|database\|query\|sql\|deploy\|pipeline\|terraform\|cloudformation\|dockerfile\|kubernetes\|helm\|yaml" && is_code=1
	echo "$q_lower" \| grep -qE "create\|generate\|write\|build\|new\|template\|scaffold\|design" && is_generate=1

	if [ "$is_code" = "1" ] && [ -d "$HOME/.surrogate/code-vector-db" ]; then
	if [ "$is_generate" = "1" ] && [ -x "$HOME/.surrogate/bin/find-gold-examples.sh" ]; then
	# Generation task → inject FULL reference files (better style match)
	code_ctx=$("$HOME/.surrogate/bin/find-gold-examples.sh" --top 2 --max-bytes 5000 "$QUERY" 2>/dev/null)
	elif [ -x "$HOME/.surrogate/bin/code-search.sh" ]; then
	# Query task → snippets only (faster)
	code_ctx=$("$HOME/.surrogate/bin/code-search.sh" --top 3 "$QUERY" 2>/dev/null \| head -60)
	fi
	fi

	local prompt="You are Ashira's AI assistant. Context: $profile

	Pattern index: $kb"
	if [ -n "$code_ctx" ]; then
	prompt="$prompt

	=== ASHIRA'S EXISTING CODE (match this style EXACTLY) ===
	$code_ctx
	=== END EXAMPLES ===

	Style rules enforced:
	- Follow naming/indent/comment style from examples above
	- Use exact same Parameter/Resource names when applicable
	- Preserve existing conventions (tags, naming, Description format)"
	fi
	prompt="$prompt

	Be concise. Cite file paths when referencing existing code."
	echo "$prompt"
	}
	SYSTEM=$(build_system_prompt)

	# --- Anthropic via Max plan (routes through claude-bridge.sh CLI) ---
	# Direct HTTPS to api.anthropic.com with OAuth token returns 401 — OAuth flow
	# is managed by `claude` CLI (keychain/config). Use the bridge instead.
	try_anthropic() {
	local model="$1" extra="$2"
	log "→ Claude Max: $model"
	local out
	out=$(echo "$QUERY" \| "$HOME/.surrogate/bin/claude-bridge.sh" --model "$model" $extra 2>>/tmp/ai-fallback.err) \|\| return 1
	[ -z "$out" ] && return 1
	echo "$out"
	save_response "anthropic" "$model" "$out"
	return 0
	}

	# Opus needs --force outside 01:00-06:00 window; sonnet is always available
	try_claude_opus() { try_anthropic "opus" "--force"; }
	try_claude_sonnet() { try_anthropic "sonnet" ""; }

	# OpenRouter FREE — tries multiple free models (each has strict rate limit)
	# Order: coder-first → general-powerhouse → smaller fallbacks
	try_openrouter_free() {
	[ -z "${OPENROUTER_API_KEY:-}" ] && return 2
	local free_models=(
	"qwen/qwen3-coder:free"
	"qwen/qwen3-next-80b-a3b-instruct:free"
	"openai/gpt-oss-120b:free"
	"nvidia/nemotron-3-super-120b-a12b:free"
	"meta-llama/llama-3.3-70b-instruct:free"
	"z-ai/glm-4.5-air:free"
	"google/gemma-4-31b-it:free"
	"openai/gpt-oss-20b:free"
	)
	for m in "${free_models[@]}"; do
	OPENROUTER_MODEL="$m" try_openrouter && return 0
	log " ↳ free '$m' unavailable, trying next free..."
	done
	return 1
	}

	# --- OpenRouter (cheap+capable non-Sonnet picks) ---
	try_openrouter() {
	[ -z "${OPENROUTER_API_KEY:-}" ] && return 2
	# Default: GPT-5.4 (beats Claude Opus 4.6 per benchmarks, -50% cost vs Opus 4.7)
	local model="${OPENROUTER_MODEL:-openai/gpt-5.4}"
	case "${OR_TIER:-}" in
	# PAID tiers
	cheap) model="deepseek/deepseek-v3.2" ;; # $0.26/$0.42 — cheapest capable
	fast) model="x-ai/grok-4.1-fast" ;; # $0.20/$0.50 — ultra cheap, 2M ctx
	balanced) model="openai/gpt-5.4" ;; # $2.50/$15 — DEFAULT, beats Opus 4.6
	premium) model="anthropic/claude-opus-4.7" ;; # $5/$25 — if really need Opus
	grok) model="x-ai/grok-4.20" ;; # $2/$6 — 2M ctx, cool
	gemini) model="google/gemini-3.1-pro-preview" ;;# $2/$12
	# FREE tiers (29 models available)
	free\|free-coder) model="qwen/qwen3-coder:free" ;; # coding, 262k ctx
	free-large) model="qwen/qwen3-next-80b-a3b-instruct:free" ;; # 80B MoE
	free-nvidia) model="nvidia/nemotron-3-super-120b-a12b:free" ;; # 120B
	free-gptoss) model="openai/gpt-oss-120b:free" ;; # OpenAI open-sourced
	free-llama) model="meta-llama/llama-3.3-70b-instruct:free" ;;
	free-kimi) model="moonshotai/kimi-k2.5" ;; # Kimi 256k ctx
	free-glm) model="z-ai/glm-4.5-air:free" ;;
	free-gemma) model="google/gemma-4-31b-it:free" ;; # Google Gemma 4
	esac
	log "→ OpenRouter: $model"
	local body
	# Use env vars — avoids quote-escape hell with multiline system prompt.
	# max_tokens=4000 (GPT-5.4 requires >= 16; stay well above)
	body=$(ORM="$model" SYS="$SYSTEM" Q="$QUERY" "$HOME/.surrogate/venv/bin/python" -c "
	import json, os
	m = {'model':os.environ['ORM'],'max_tokens':4000,
	'messages':[{'role':'system','content':os.environ['SYS']},
	{'role':'user','content':os.environ['Q']}]}
	print(json.dumps(m))
	" 2>&1) \|\| { log " body-build failed: $body"; return 1; }
	local resp code body_resp
	resp=$(curl -sS -w "\n%{http_code}" \
	--max-time 90 \
	-X POST "https://openrouter.ai/api/v1/chat/completions" \
	-H "Authorization: Bearer $OPENROUTER_API_KEY" \
	-H "HTTP-Referer: https://ashira.local" \
	-H "X-Title: ai-fallback" \
	-H "content-type: application/json" \
	-d "$body" 2>&1)
	code=$(echo "$resp" \| tail -1)
	body_resp=$(echo "$resp" \| sed '$d')
	if [ "$code" != "200" ]; then
	# Log real error reason for debug
	local errmsg
	errmsg=$(echo "$body_resp" \| "$HOME/.surrogate/venv/bin/python" -c "
	import sys, json
	try: d=json.load(sys.stdin); print(d.get('error',{}).get('message','unknown')[:120])
	except: print('parse-fail')
	" 2>/dev/null \|\| echo "unknown")
	log " [$code] $errmsg — falling through"
	return 1
	fi
	local out
	out=$(echo "$body_resp" \| "$HOME/.surrogate/venv/bin/python" -c "
	import sys, json
	d = json.load(sys.stdin)
	print(d['choices'][0]['message']['content'])
	") \|\| return 1
	echo "$out"
	save_response "openrouter" "$model" "$out"
	return 0
	}

	# --- Gemini (free) ---
	try_gemini() {
	[ -z "${GEMINI_API_KEY:-}" ] && return 2
	local model="${GEMINI_MODEL:-gemini-2.5-flash}"
	log "→ Gemini: $model (free)"
	local body
	body=$("$HOME/.surrogate/venv/bin/python" -c "
	import json
	m = {'systemInstruction':{'parts':[{'text':'''$SYSTEM'''}]},
	'contents':[{'role':'user','parts':[{'text':'''$QUERY'''}]}],
	'generationConfig':{'maxOutputTokens':4000}}
	print(json.dumps(m))
	" 2>/dev/null)
	local resp code body_resp
	resp=$(curl -sS -w "\n%{http_code}" \
	-X POST "https://generativelanguage.googleapis.com/v1beta/models/$model:generateContent?key=$GEMINI_API_KEY" \
	-H "content-type: application/json" -d "$body" 2>&1)
	code=$(echo "$resp" \| tail -1)
	body_resp=$(echo "$resp" \| sed '$d')
	[ "$code" != "200" ] && { log " [$code] falling through"; return 1; }
	local out
	out=$(echo "$body_resp" \| "$HOME/.surrogate/venv/bin/python" -c "
	import sys, json
	d = json.load(sys.stdin)
	print(d['candidates'][0]['content']['parts'][0]['text'])
	") \|\| return 1
	echo "$out"
	save_response "gemini" "$model" "$out"
	return 0
	}

	# --- Groq (free, ultra-fast) ---
	try_groq() {
	[ -z "${GROQ_API_KEY:-}" ] && return 2
	local model="${GROQ_MODEL:-llama70}"
	log "→ Groq: $model (free)"
	# Route through groq-bridge for consistent alias handling (llama70, fast, qwen, gpt-oss...)
	local out
	out=$(echo "$QUERY" \| "$HOME/.surrogate/bin/groq-bridge.sh" --model "$model" 2>>/tmp/ai-fallback.err) \|\| return 1
	[ -z "$out" ] && return 1
	echo "$out"
	save_response "groq" "$model" "$out"
	return 0
	}

	# --- GitHub Models (free via PAT, OpenAI-compat, GPT-4o-mini/Llama 3.3/Mistral/DeepSeek) ---
	try_github() {
	[ -z "${GITHUB_MODELS_TOKEN:-}${GITHUB_TOKEN:-}" ] && return 2
	local model="${GITHUB_MODEL:-gpt-4o}"
	log "→ GitHub Models: $model (free)"
	local out
	out=$(echo "$QUERY" \| "$HOME/.surrogate/bin/github-bridge.sh" --model "$model" 2>>/tmp/ai-fallback.err) \|\| return 1
	[ -z "$out" ] && return 1
	echo "$out"
	save_response "github" "$model" "$out"
	return 0
	}

	# --- SambaNova Cloud (free, ~500 tok/s Llama 3.3 70B / DeepSeek V3.2 / Llama 4) ---
	try_sambanova() {
	[ -z "${SAMBANOVA_API_KEY:-}" ] && return 2
	local model="${SAMBANOVA_MODEL:-llama70}"
	log "→ SambaNova: $model (free)"
	local out
	out=$(echo "$QUERY" \| "$HOME/.surrogate/bin/sambanova-bridge.sh" --model "$model" 2>>/tmp/ai-fallback.err) \|\| return 1
	[ -z "$out" ] && return 1
	echo "$out"
	save_response "sambanova" "$model" "$out"
	return 0
	}

	# --- Cloudflare Workers AI (free 10k neurons/day, Llama 3.3 / Gemma-3 / Qwen Coder) ---
	try_cloudflare() {
	[ -z "${CLOUDFLARE_API_TOKEN:-}${CF_API_TOKEN:-}" ] && return 2
	[ -z "${CLOUDFLARE_ACCOUNT_ID:-}${CF_ACCOUNT_ID:-}" ] && return 2
	local model="${CLOUDFLARE_MODEL:-gpt-oss}"
	log "→ Cloudflare WAI: $model (free)"
	local out
	out=$(echo "$QUERY" \| "$HOME/.surrogate/bin/cloudflare-bridge.sh" --model "$model" 2>>/tmp/ai-fallback.err) \|\| return 1
	[ -z "$out" ] && return 1
	echo "$out"
	save_response "cloudflare" "$model" "$out"
	return 0
	}

	# --- Local Ollama — always-on, always-free ultimate fallback ---
	# Bench (M3 24GB): granite4:7b-a1b-h (4.2GB, ~7s/fib+memo — fast & correct).
	# Task-aware: code → qwen-coder:7b, chat → granite, tiny → qwen:3b.
	# gemma4:26b BLOCKED — user directive (too slow for this hw).
	try_granite() {
	# Check ollama running
	curl -sS --max-time 3 http://localhost:11434/api/tags > /dev/null 2>&1 \|\| return 2
	local alias="${LOCAL_MODEL:-granite}"
	log "→ Local Ollama: $alias (free, always-on)"
	local out
	out=$(echo "$QUERY" \| "$HOME/.surrogate/bin/granite-bridge.sh" --model "$alias" 2>>/tmp/ai-fallback.err) \|\| return 1
	[ -z "$out" ] && return 1
	echo "$out"
	save_response "ollama-local" "$alias" "$out"
	return 0
	}

	# --- Execute chain (FREE-FIRST for routine/bulk tasks) ---
	# Order: free APIs → claude-sonnet (Max plan safety net) → local Ollama (ultimate backstop)
	# IMPORTANT-tasks (retro/sprint/skill-sanitize/agent-critic/security-audit/mythos-audit)
	# → call claude-bridge.sh --model opus --force DIRECTLY, bypass this chain
	# REVIEWER/hallucination-check → call claude-bridge.sh --model sonnet DIRECTLY
	# Paid OpenRouter removed per user direction (use Max plan instead of pay-per-use)
	PROVIDERS="github sambanova cloudflare groq openrouter-free gemini claude-sonnet granite"

	# Explicit --force
	if [ -n "$FORCE" ]; then
	case "$FORCE" in
	claude-opus\|opus) try_claude_opus && exit 0 ;;
	claude-sonnet\|sonnet) try_claude_sonnet && exit 0 ;;
	openrouter\|or) try_openrouter && exit 0 ;;
	openrouter-free\|free) try_openrouter_free && exit 0 ;;
	gpt5\|gpt) OPENROUTER_MODEL="openai/gpt-5.4" try_openrouter && exit 0 ;;
	grok) OPENROUTER_MODEL="x-ai/grok-4.20" try_openrouter && exit 0 ;;
	deepseek) OPENROUTER_MODEL="deepseek/deepseek-v3.2" try_openrouter && exit 0 ;;
	gemini) try_gemini && exit 0 ;;
	groq) try_groq && exit 0 ;;
	github\|gh) try_github && exit 0 ;;
	sambanova\|samba) try_sambanova && exit 0 ;;
	cloudflare\|cf) try_cloudflare && exit 0 ;;
	granite\|local\|ollama) try_granite && exit 0 ;;
	*) echo "[error] unknown --force '$FORCE'" >&2; exit 1 ;;
	esac
	echo "[error] forced provider failed" >&2; exit 1
	fi

	# Auto chain with skip support
	for p in $PROVIDERS; do
	if [ -n "$SKIP" ] && [ "$p" = "$SKIP" ]; then continue; fi
	case "$p" in
	github) try_github && exit 0 ;;
	sambanova) try_sambanova && exit 0 ;;
	cloudflare) try_cloudflare && exit 0 ;;
	claude-opus) try_claude_opus && exit 0 ;;
	claude-sonnet) try_claude_sonnet && exit 0 ;;
	openrouter) try_openrouter && exit 0 ;;
	openrouter-free) try_openrouter_free && exit 0 ;;
	gemini) try_gemini && exit 0 ;;
	groq) try_groq && exit 0 ;;
	granite) try_granite && exit 0 ;;
	esac
	done

	echo "[error] all providers exhausted" >&2
	exit 1