🚀 v0.1.6: Real-time Metrics & Blackwell-Optimized Docker (Recommended)
This model is fully compatible with the DGX-Spark-llama.cpp-Bench. Experience the state-of-the-art inference engine optimized for NVIDIA Blackwell (DGX Spark) hardware.
🌟 Key Features (v0.1.6)
- Real-time Performance Metrics: Now visualizes
Input TPSandOutput TPSduring streaming. - Improved Reasoning UI: Seamlessly renders and stabilizes the model's Chain-of-Thought (CoT).
- Blackwell Optimization: Native support for ARM64/SM121 and CUDA 13.0 FP4.
🐳 Quick Start
# Pull the latest optimized image
docker pull ghcr.io/sowilow/dgx-spark-llama.cpp-bench:v0.1.6
For more details, visit our GitHub Repository.
🚀 v0.1.6: 실시간 지표 및 Blackwell 최적화 도커 (권장)
이 모델은 DGX-Spark-llama.cpp-Bench 시스템에 최적화되어 있습니다. NVIDIA Blackwell (DGX Spark) 하드웨어의 성능을 최대로 활용하세요.
🌟 주요 특징 (v0.1.6)
- 실시간 성능 지표 시각화: 스트리밍 중
Input TPS및Output TPS를 실시간으로 표시합니다. - 지능형 추론 UI 고도화: 모델의 생각하는 과정(CoT)을 더 안정적으로 렌더링합니다.
- Blackwell 최적화: ARM64/SM121 아키텍처 및 CUDA 13.0 FP4 가속 지원.
🐳 실행 방법
# 최신 최적화 이미지 내려받기
docker pull ghcr.io/sowilow/dgx-spark-llama.cpp-bench:v0.1.6
상세한 사용법은 GitHub 리포지토리를 참조하세요.
🚀 v0.1.5: Real-time Metrics & Blackwell-Optimized Docker (Recommended)
This model is fully compatible with the DGX-Spark-llama.cpp-Bench. Experience the state-of-the-art inference engine optimized for NVIDIA Blackwell (DGX Spark) hardware.
🌟 Key Features (v0.1.5)
- Real-time Performance Metrics: Now visualizes
Input TPSandOutput TPSduring streaming. - Improved Reasoning UI: Seamlessly renders and stabilizes the model's Chain-of-Thought (CoT).
- Blackwell Optimization: Native support for ARM64/SM121 and CUDA 13.0 FP4.
🐳 Quick Start
# Pull the latest optimized image
docker pull ghcr.io/sowilow/dgx-spark-llama.cpp-bench:v0.1.5
For more details, visit our GitHub Repository.
🚀 v0.1.5: 실시간 지표 및 Blackwell 최적화 도커 (권장)
이 모델은 DGX-Spark-llama.cpp-Bench 시스템에 최적화되어 있습니다. NVIDIA Blackwell (DGX Spark) 하드웨어의 성능을 최대로 활용하세요.
🌟 주요 특징 (v0.1.5)
- 실시간 성능 지표 시각화: 스트리밍 중
Input TPS및Output TPS를 실시간으로 표시합니다. - 지능형 추론 UI 고도화: 모델의 생각하는 과정(CoT)을 더 안정적으로 렌더링합니다.
- Blackwell 최적화: ARM64/SM121 아키텍처 및 CUDA 13.0 FP4 가속 지원.
🐳 실행 방법
# 최신 최적화 이미지 내려받기
docker pull ghcr.io/sowilow/dgx-spark-llama.cpp-bench:v0.1.5
상세한 사용법은 GitHub 리포지토리를 참조하세요.
🚀 v0.1.4: Quick Start with Blackwell-Optimized Docker (Recommended)
This model is fully compatible with the DGX-Spark-llama.cpp-Bench. Experience the best performance on NVIDIA Blackwell (DGX Spark) hardware with our optimized inference engine.
🌟 Key Features (v0.1.4)
- Blackwell Optimized: Native support for ARM64/SM121 and CUDA 13.0 FP4.
- Intelligent Reasoning UI: Automatic extraction and visualization of reasoning processes (CoT).
- One-Click Deployment: Standardized environment via GHCR Docker image.
🐳 How to Run
# Pull the latest optimized image
docker pull ghcr.io/sowilow/dgx-spark-llama.cpp-bench:v0.1.4
# Follow the instructions in our repo to serve this model
# GitHub: https://github.com/sowilow/DGX-Spark-llama.cpp-Bench
🚀 v0.1.4: Blackwell 최적화 도커 퀵스타트 (권장)
이 모델은 DGX-Spark-llama.cpp-Bench 시스템에 최적화되어 있습니다. NVIDIA Blackwell (DGX Spark) 하드웨어의 성능을 최대로 활용하는 최적화된 추론 엔진을 경험해 보세요.
🌟 주요 특징 (v0.1.4)
- Blackwell 최적화: ARM64/SM121 아키텍처 및 CUDA 13.0 FP4 하드웨어 가속 지원.
- 지능형 추론 UI: 모델의 생각하는 과정(CoT)을 자동으로 감지하고 시각화합니다.
- 간편한 배포: GHCR 도커 이미지를 통해 환경 설정 없이 즉시 실행 가능합니다.
🐳 실행 방법
# 최신 최적화 이미지 내려받기
docker pull ghcr.io/sowilow/dgx-spark-llama.cpp-bench:v0.1.4
상세한 사용법은 GitHub 리포지토리를 참조하세요.
🚀 Quick Start with Docker (Recommended)
You can easily run this model using the DGX-Spark-llama.cpp-Bench inference engine. It's pre-configured for high-performance inference on NVIDIA hardware (especially Blackwell/DGX Spark).
1. Pull the Docker Image
docker pull ghcr.io/sowilow/dgx-spark-llama.cpp-bench:latest
2. Run the Inference Server
For detailed configuration and usage, visit the GitHub Repository.
gemma-4-26b-a4b-it-GGUF
This repository contains GGUF-quantized weights for Gemma-4-26B-A4B-it, specifically optimized for NVIDIA Blackwell (DGX Spark) hardware.
🚀 Key Features
- Hardware Optimized: Built with CUDA 13.0 and SM121 (Blackwell) native acceleration.
- Quantization: Q4_K_M (4-bit unified quantization) for balanced performance and accuracy.
- MoE Architecture: Fully optimized MoE routing for high-throughput inference on GB10.
- Base Model Integration: Linked directly to the original google/gemma-4-26B-A4B-it.
⚖️ License & Attribution
This model is a quantized version of the original google/gemma-4-26B-A4B-it and is subject to the Gemma License Agreement.
📂 Files Included
gemma-4-26b-a4b-it-q4_k_m.gguf: Main MoE model weights.gemma-4-26b-vision-mmproj-f16.gguf: Multimodal vision projector (Dimension-matched: n_embd=2816).
Created using DGX-Spark-llama.cpp-Bench
- Downloads last month
- 766
4-bit
Model tree for sowilow/gemma-4-26b-a4b-it-DGX-Spark-GGUF
Base model
google/gemma-4-26B-A4B-it