Install from WinGet (Windows)
winget install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf NeveAI/Neve-Strata-X2-35B-GGUF:Q4_K_XL# Run inference directly in the terminal:
llama-cli -hf NeveAI/Neve-Strata-X2-35B-GGUF:Q4_K_XLUse pre-built binary
# Download pre-built binary from:
# https://github.com/ggerganov/llama.cpp/releases# Start a local OpenAI-compatible server with a web UI:
./llama-server -hf NeveAI/Neve-Strata-X2-35B-GGUF:Q4_K_XL# Run inference directly in the terminal:
./llama-cli -hf NeveAI/Neve-Strata-X2-35B-GGUF:Q4_K_XLBuild from source code
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli# Start a local OpenAI-compatible server with a web UI:
./build/bin/llama-server -hf NeveAI/Neve-Strata-X2-35B-GGUF:Q4_K_XL# Run inference directly in the terminal:
./build/bin/llama-cli -hf NeveAI/Neve-Strata-X2-35B-GGUF:Q4_K_XLUse Docker
docker model run hf.co/NeveAI/Neve-Strata-X2-35B-GGUF:Q4_K_XL
Neve-Strata-X2-35B-GGUF
Introdução
O Neve Strata X2 é um modelo de linguagem de última geração focado em programação e raciocínio para arquiteturas complexas. Esta versão em formato GGUF foi otimizada pela NeveAI para oferecer o equilíbrio ideal entre precisão lógica e eficiência computacional.
Destaques do Modelo
Este modelo foi desenvolvido para desenvolvedores que exigem mais do que simples geração de código, focando em:
- Agentic Coding: Otimizado para agir como um agente autônomo, lidando com fluxos de trabalho de frontend e raciocínio em nível de repositório completo.
- Thinking Preservation: Implementação avançada para reter o contexto de raciocínio histórico, permitindo que a IA "lembre" da lógica estrutural em conversas longas.
- Developer Role Support: Ajustado especificamente para suporte a funções de desenvolvedor em ambientes como Codex e OpenCode.
- Tool Calling: Precisão aprimorada no parsing de objetos aninhados para chamadas de ferramentas complexas.
Benchmark de Performance
O Neve Strata X2 demonstra resultados consistentes em benchmarks de elite para codificação e STEM:
| Categoria | Benchmark | Neve-Strata-X2 | Qwen3.5-35B | Gemma4-31B |
|---|---|---|---|---|
| Coding | SWE-bench Verified | 73.4 | 70.0 | 52.0 |
| STEM | AIME 26 | 92.7 | 91.0 | 89.2 |
| Reasoning | GPQA | 86.0 | 84.2 | 84.3 |
| Knowledge | MMLU-Redux | 93.3 | 93.3 | 93.7 |
Detalhes da Arquitetura
- Arquitetura: Mixture of Experts (MoE) com Gated DeltaNet.
- Parâmetros: 35B totais (apenas 3B ativos por token, garantindo velocidade).
- Janela de Contexto: 262.144 tokens nativos (extensível até 1.010.000).
- Camadas: 40 camadas com Hidden Dimension de 2048.
- MoE: 256 experts (8 roteados + 1 compartilhado).
Como utilizar (GGUF)
Este modelo é compatível com llama.cpp, Ollama, LM Studio e outras ferramentas que suportam o formato GGUF.
Foco direcionado ao uso do modelo na plataforma autoral da organização NeveAI
Licença
Este repositório e os pesos do modelo estão licenciados sob a Licença Apache 2.0.
Contato
Se tiver qualquer dúvida, por favor, levante um issue ou entre em contato conosco em NeveIA.
- Downloads last month
- 238
4-bit
Model tree for NeveAI/Neve-Strata-X2-35B-GGUF
Base model
Qwen/Qwen3.6-35B-A3B
Install from brew
# Start a local OpenAI-compatible server with a web UI: llama-server -hf NeveAI/Neve-Strata-X2-35B-GGUF:Q4_K_XL# Run inference directly in the terminal: llama-cli -hf NeveAI/Neve-Strata-X2-35B-GGUF:Q4_K_XL