n2r-dev

Running

n2r-dev / README.md

Upload 17 files

c0139c7 verified 6 days ago

4.63 kB

title: NVIDIA NIM 响应网关
sdk: docker
app_port: 7860
pinned: false

NVIDIA NIM 响应网关

这是一个面向公开使用的 NVIDIA NIM 兼容网关，同时支持 OpenAI /v1/responses 和 Anthropic /v1/messages 风格请求。

它不在本地保存任何用户的 NIM API Key。用户调用本项目时，需要自己通过请求头携带 NIM Key，网关只负责协议转换、性能优化、聚合统计和官方模型目录展示。

将 NVIDIA 官方 POST /v1/chat/completions 转换为 OpenAI 风格的 POST /v1/responses
将 NVIDIA 官方 POST /v1/chat/completions 转换为 Anthropic 风格的 POST /v1/messages
支持 tool calling / function calling
支持 Anthropic tools / tool_choice / tool_result 以及 Claude Code 常见的客户端工具调用形态
支持 function_call_output 回灌
支持 previous_response_id 对话续写
对 /v1/responses 和 /v1/responses/{response_id} 使用用户自带的 NIM Key 做鉴权与上游转发
对 /v1/messages 使用用户自带的 NIM Key 做鉴权与上游转发，并支持 Anthropic SSE 风格流式事件
/v1/models 直接返回来自 NVIDIA 官方 /v1/models 的同步结果，保持 OpenAI 风格结构
/ 为白色主题的模型健康度页面，按 10 分钟成功率矩阵展示 MODEL_LIST 中的模型
/model_list 为独立的白色主题官方模型列表页面，支持按提供商筛选模型
模型提供商卡片为固定高度，避免模型较多时卡片过长
使用共享 HTTP 连接池、SQLite WAL 和异步线程化落库来增强高并发场景下的转发性能

对于 POST /v1/responses 和 POST /v1/messages，请通过下面任意一种方式传入你自己的 NVIDIA NIM Key：

网关不会把原始 Key 持久化到数据库中，只会在内存中用于当前请求，并对响应链路使用 Key 哈希做隔离。

项目会定时从官方接口拉取模型列表：

https://integrate.api.nvidia.com/v1/models

同步后的模型目录同时用于：

页面：

前端数据接口：

兼容接口：

我已经完成两层本地联调：

Mock 联调：
- 通过 scripts/local_smoke_test.py 验证了协议转换、官方模型同步、用户 Key 鉴权、previous_response_id、tool call、健康页数据接口、模型页数据接口和两个独立页面路由。
真实上游联调：
- 通过 scripts/live_e2e_validation.py 使用提供的测试 NIM Key，真实调用了 NVIDIA 官方模型目录和实际模型响应。
- 实测结果：live_gateway_ok，并成功通过 z-ai/glm5 得到 OK。