Install from WinGet (Windows)
winget install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf NeveAI/Neve-Strata-S2-4B-GGUF:Q8_K_XL# Run inference directly in the terminal:
llama-cli -hf NeveAI/Neve-Strata-S2-4B-GGUF:Q8_K_XLUse pre-built binary
# Download pre-built binary from:
# https://github.com/ggerganov/llama.cpp/releases# Start a local OpenAI-compatible server with a web UI:
./llama-server -hf NeveAI/Neve-Strata-S2-4B-GGUF:Q8_K_XL# Run inference directly in the terminal:
./llama-cli -hf NeveAI/Neve-Strata-S2-4B-GGUF:Q8_K_XLBuild from source code
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli# Start a local OpenAI-compatible server with a web UI:
./build/bin/llama-server -hf NeveAI/Neve-Strata-S2-4B-GGUF:Q8_K_XL# Run inference directly in the terminal:
./build/bin/llama-cli -hf NeveAI/Neve-Strata-S2-4B-GGUF:Q8_K_XLUse Docker
docker model run hf.co/NeveAI/Neve-Strata-S2-4B-GGUF:Q8_K_XL
Neve-Strata-S2-4B-GGUF
Introdução
O Neve Strata S2 é um modelo de linguagem de última geração focado em programação e raciocínio para execução em escala. Esta versão em formato GGUF foi otimizada pela NeveAI para oferecer o equilíbrio ideal entre precisão lógica e eficiência computacional.
Destaques do Modelo
Este modelo foi desenvolvido para uso geral e execução de tarefas diversas, focando em:
- Unified Multimodal Understanding: Treinamento com fusão antecipada de tokens multimodais, garantindo forte desempenho em tarefas de texto e compreensão visual.
- Arquitetura Híbrida Eficiente: Combinação de Gated Delta Networks com Mixture-of-Experts, proporcionando alta performance com baixa latência.
- Raciocínio e Generalização: Otimizado com técnicas avançadas de reinforcement learning para lidar com tarefas complexas e cenários do mundo real.
- Cobertura Multilíngue Global: Suporte expandido para múltiplos idiomas, garantindo aplicação ampla em diferentes contextos culturais e linguísticos.
Benchmark de Performance
O Neve Strata S2 apresenta desempenho sólido em benchmarks de conhecimento, raciocínio e tarefas gerais:
| Categoria | Benchmark | Neve Strata S2 | Qwen3.5-4B |
|---|---|---|---|
| Knowledge | MMLU-Pro | 82.5 | 79.1 |
| Knowledge | MMLU-Redux | 91.1 | 88.8 |
| Reasoning | GPQA Diamond | 81.7 | 76.2 |
| Instruction | IFEval | 91.5 | 89.8 |
| Long Context | LongBench v2 | 55.2 | 50.0 |
| Agent / Tool Use | TAU2-Bench | 79.1 | 79.9 |
Detalhes da Arquitetura
- Arquitetura: Gated DeltaNet + Mixture of Experts (MoE).
- Parâmetros: ~4B parâmetros.
- Janela de Contexto: 262.144 tokens nativos (extensível até ~1M).
- Camadas: 32 camadas com estrutura híbrida intercalando DeltaNet e Attention.
- Multimodalidade: Suporte a texto e visão com encoder integrado.
Como utilizar (GGUF)
Este modelo é compatível com llama.cpp, Ollama, LM Studio e outras ferramentas que suportam o formato GGUF.
Foco direcionado ao uso do modelo na plataforma autoral da organização NeveAI
Licença
Este repositório e os pesos do modelo estão licenciados sob a Licença Apache 2.0.
Contato
Se tiver qualquer dúvida, por favor, levante um issue ou entre em contato conosco em NeveIA.
- Downloads last month
- 58
8-bit
Install from brew
# Start a local OpenAI-compatible server with a web UI: llama-server -hf NeveAI/Neve-Strata-S2-4B-GGUF:Q8_K_XL# Run inference directly in the terminal: llama-cli -hf NeveAI/Neve-Strata-S2-4B-GGUF:Q8_K_XL