This is a decensored version of ricoh-ai/Qwen-3-VL-Ricoh-8B-20260227, made using Heretic v1.2.0

Abliteration parameters

Parameter Value
direction_index 21.86
attn.o_proj.max_weight 1.48
attn.o_proj.max_weight_position 21.19
attn.o_proj.min_weight 1.41
attn.o_proj.min_weight_distance 20.61
mlp.down_proj.max_weight 1.38
mlp.down_proj.max_weight_position 28.58
mlp.down_proj.min_weight 1.31
mlp.down_proj.min_weight_distance 14.00

Performance

Metric This model Original model (ricoh-ai/Qwen-3-VL-Ricoh-8B-20260227)
KL divergence 0.0172 0 (by definition)
Refusals 27/100 99/100

Qwen-3-VL-Ricoh-8B-20260227

株式会社リコー(社長執行役員:大山 晃)は、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」第3期において、マルチモーダル大規模言語モデル(以下「LMM」)の開発に取り組んできました。このたび、リコーは図表を含んだ様々なドキュメント群を、多段推論を行うことでより高精度に読み取ることができるリーズニング性能を持つLMM(以下、リーズニングLMM)の基本モデル「Qwen3-VL-Ricoh-32B-20260227」の開発を完了しました。今回、本モデル開発に適用した技術を用いて開発した軽量モデル「Qwen-3-VL-Ricoh-8B-20260227」を公開いたします。

  • GENIAC(ジーニアック/Generative AI Accelerator Challenge):主に生成AIのコア技術である基盤モデルの開発に対する計算資源の提供や、データやAIの利活用に向けた実証調査の支援等を実施するプロジェクト。
  • リーズニング性能: LLMが単に情報を検索したりテキストを生成したりするだけでなく、複数のステップからなる論理的な思考プロセスを経て結論を導き出す性能。

Qwen-3-VL-Ricoh-8B-20260227は日本語に最適化されたVision Language Model(VLM)です。
このモデルはQwen3-VL-8B-ThinkingおよびQwen3-VL-8B-Instructをもとに開発されました。
Qwen3を寛大なオープンライセンスのもとで公開してくださったQwenチームに深く感謝いたします。

主な機能強化

  • 図表読解の深化: 強化学習による推論プロセスの導入で、複雑なドキュメントの読み間違いを低減。
  • マルチモーダル推論: データの抽出に留まらず、読み取った数値に基づく計算や比較分析の精度が向上。
  • 高信頼な回答生成: <think></think>タグ内を含めて日本語化することで、解答に至るまでの根拠を明確化。

Quickstart

このモデルは vLLM 0.11.0 を用いて動作確認を実施しております。
以下にvLLMを用いて推論を行うための環境構築の例を示します。

conda create -n vllm python=3.10 -y
conda activate vllm
pip install vllm==0.11.0
pip install qwen-vl-utils==0.0.14
pip install transformers==4.57.0

Using Qwen-3-VL-Ricoh-8B-20260227 with vLLM

以下にvLLMを用いて推論を行うための例を示します。

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'

from transformers import AutoProcessor
from vllm import LLM, SamplingParams
from qwen_vl_utils import process_vision_info
from PIL import Image

MODEL_PATH = "ricoh-ai/Qwen-3-VL-Ricoh-8B-20260227"
IMG_PATH = "./calendar_20251210124428.png"

image = Image.open(IMG_PATH)
llm = LLM(model=MODEL_PATH)

messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "この画像によると、制度改正セミナーはいつでしょうか?"},
            {
                "type": "image",
                "image": image,
                "min_pixels": 200704,
                "max_pixels": 5242880,
            },
        ],
    },
]

processor = AutoProcessor.from_pretrained(MODEL_PATH)
prompt = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
image_inputs, video_inputs, video_kwargs = process_vision_info(messages, return_video_kwargs=True)

mm_data = {}
if image_inputs is not None:
    mm_data["image"] = image_inputs
if video_inputs is not None:
    mm_data["video"] = video_inputs

llm_inputs = {
    "prompt": prompt,
    "multi_modal_data": mm_data,
    "mm_processor_kwargs": video_kwargs,
}

sampling_params = SamplingParams(
    temperature=1.0,
    top_p=0.95,
    max_tokens=1024,
    seed=42,
)

outputs = llm.generate([llm_inputs], sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

Model Performance

GPU利用期間である2/17までに公開済みかつvllm==0.11.0で動作確認が出来たモデルを対象に公開ベンチマークであるJDocQAと独自ベンチマークであるJDocQA-Reasoningを用いて評価を行いました。
ただし、Ministral-3のみvllm==0.12.0にて評価を行っております。
推論はvllm==0.11.0およびvllm==0.12.0(Ministral-3のみ)を用いて行い、評価はAzure OpenAI Serviceを用いてGPT-4.1(JDocQA-Reasoning)およびGPT-4o(JDocQA)によるLLM-as-a-Judgeによって行いました。
JDocQAは画像の解像度が低いことが原因でモデルが回答できない問題を排除するため、PDFから画像を作成する際に、画像に含まれる文字が読み取り可能なサイズまで拡大して画像化しております。
JDocQA-Reasoningは当初GPT-4oにて評価を行っておりましたが、同じ推論結果を入力して複数回評価させた際にGPT-4.1の方が分散が小さかったためGPT-4.1に変更しています。
GPT-5.2及びGemini以外に関しては10回の推論及び評価を行い推論モデル及び評価モデルのゆらぎを低減できるよう努めました。
GPU利用期間内に動作確認ができなかったその他の最新のモデルに関しても、今後評価を進めてまいります。

Model JDocQA-Reasoning JDocQA
gemma-3-12b-it 0.257 2.742
gemma-3-27b-it 0.289 2.854
Ministral-3-8B-Reasoning-2512 0.501 2.567
Ministral-3-14B-Reasoning-2512 0.601 3.066
Qwen3-VL-8B-Thinking 0.699 3.890
Qwen-3-VL-Ricoh-8B-20260227 0.718 3.998
GPT-5.2 0.731 3.928
Gemini 2.5 Pro 0.838 4.077
Gemini 3 Pro Preview 0.880 4.241
(参考)Qwen3-VL-Ricoh-32B-20260227 0.826 4.076

推論時に個別に設定したパラメータは以下の通りです。
推論時のTemperatureは各モデルの推奨値とし、Temperatureを0.0以外にすることによる推論のゆらぎは複数回の推論と評価で低減するよう努めました。
ただし、Gemini 2.5 Pro及びGemini 3 Pro Preview及びQwen3-VL-Ricoh-32B-20260227のみ開発時の評価データを用いているためTemperature=0.0としています。

Parameter Temperature Top_p URL
gemma-3-12b-it 1.0 0.95 URL
gemma-3-27b-it 1.0 0.95 URL
Ministral-3-8B-Reasoning-2512 0.7 0.95 URL
Ministral-3-14B-Reasoning-2512 0.7 0.95 URL
Qwen3-VL-8B-Thinking 1.0 0.95 URL
Qwen-3-VL-Ricoh-8B-20260227 1.0 0.95
GPT-5.2 - -
Gemini 2.5 Pro 0.0 1.0
Gemini 3 Pro Preview 0.0 1.0
(参考)Qwen3-VL-Ricoh-32B-20260227 0.0 1.0

  • JDocQA: Japanese Document Question Answering Dataset for Generative Language Models (Onami et al., 2024)
    Paper: https://aclanthology.org/2024.lrec-main.830
    Repository: https://github.com/mizuumi/JDocQA

  • JDocQA-Reasoning
    JDocQA-Reasoningは、JDocQAに用いられているテスト画像のサブセットに対して新規に一問一答のQAを付け直すことによって作成した、1000問以上からなる独自のベンチマークです。画像には図表が含まれることを条件とし、更にQAは図表に含まれる内容についての質問としています。QAとて付与したタスクは、図表やフローに直接示されている情報を把握し、そのまま取り出すことを目的とする抽出タスクを中心に、抽出した値を基に、四則演算や比率、統計的な集約などの数値処理を行う計算タスク、複数の値や要素を対比し、その関係性を明らかにする比較タスク、欠落しているデータや情報を既存の要素から推定・再構成することを目的とする補完タスクなどを含め、図表の読み取り能力及びモデルの推論能力をより評価し易い構成としています。JDocQA-Reasoningは今後難易度を調整したうえで公開する予定です。

企業での活用に向けて

セキュリティやプライバシー、ガバナンスなどの観点から、オンプレミスや自社データセンターなどの社内専用環境でAIを利用したいと考える企業も多く、省リソースでのAI活用のニーズが高まっています。リコーが開発した本モデルは、オンプレミス環境でも導入でき、さらに企業の業種・業務に応じたファインチューニングも可能です。
また、企業内での活用を加速するためには、開発コスト・運用コストの低減も課題となっています。リコーは、モデルマージの技術により、効率的な開発プロセスを確立し、プライベートモデル提供に活用していきます。さらに、独自の画像トークンの圧縮技術により、高性能化に伴って増大する運用コスト低減にも取り組みます。 詳細は技術ページをご覧くだださい。

Usage and License Notices:

Qwen-3-VL-Ricoh-8B-20260227の利用規約(Terms of Use)は、LICENSEファイルに記載しております。

Downloads last month
3
Safetensors
Model size
9B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for sasa2000/Qwen-3-VL-Ricoh-8B-20260227-heretic

Finetuned
(1)
this model