Configuration Parsing Warning:Config file tokenizer_config.json cannot be fetched (too big)

Gemma 3 270M Japanese Fine-tuned v2 (WebLLM / iPhone対応)

このモデルは、Gemma 3 270Mをベースに日本語データでファインチューニングし、WebLLM (MLC LLM)形式に変換した第2版です。

🆕 第2版の改善点

最新のトレーニングデータ: より高品質なデータセットで再訓練
最適化されたハイパーパラメータ: LoRA rank 128、batch size 8で訓練
同じWASM互換性: gemma3-270m-01と同じWASMファイルを使用可能

📱 iOS/iPhone対応

量子化方式: q4f32_1 (iOS Safari完全対応)
WebGPU: iOS Safari 26.0+で動作
shader-f16拡張: 不要
サイズ: 約187MB (モデル: 145MB、WASM: 5.5MB、トークナイザー: 38MB)

🚀 使用方法

WebLLMでの使用

import { CreateMLCEngine } from "@mlc-ai/web-llm";

const customModel = {
  model: "https://huggingface.co/UMASHIKA/gemma3-270m-japanese-webllm-02",
  model_id: "gemma3-270m-japanese-v2",
  model_lib: "https://huggingface.co/UMASHIKA/gemma3-270m-japanese-webllm-02/resolve/main/gemma3-270m-japanese-q4f32_1-ctx4k-webgpu.wasm",
  vram_required_MB: 900,
  low_resource_required: true,
};

const engine = await CreateMLCEngine(customModel.model_id, {
  appConfig: { 
    model_list: [customModel] 
  },
});

const reply = await engine.chat.completions.create({
  messages: [{ role: "user", content: "こんにちは！最近の技術トレンドについて教えてください。" }],
  temperature: 0.7,
  max_tokens: 512,
});

console.log(reply.choices[0].message.content);

Reactでの使用例

import { useEffect, useState } from "react";
import * as webllm from "@mlc-ai/web-llm";

function ChatApp() {
  const [engine, setEngine] = useState<webllm.MLCEngineInterface | null>(null);
  const [messages, setMessages] = useState<webllm.ChatCompletionMessageParam[]>([]);
  
  useEffect(() => {
    async function initEngine() {
      const customModel = {
        model: "https://huggingface.co/UMASHIKA/gemma3-270m-japanese-webllm-02",
        model_id: "gemma3-270m-japanese-v2",
        model_lib: "https://huggingface.co/UMASHIKA/gemma3-270m-japanese-webllm-02/resolve/main/gemma3-270m-japanese-q4f32_1-ctx4k-webgpu.wasm",
      };
      
      const engine = await webllm.CreateMLCEngine(customModel.model_id, {
        appConfig: { model_list: [customModel] },
      });
      
      setEngine(engine);
    }
    
    initEngine();
  }, []);
  
  // ... チャットロジック
}

📊 モデル情報

基本仕様

ベースモデル: Google Gemma 3 270M
量子化: q4f32_1 (4-bit weights + float32 activations)
コンテキスト長: 4096 tokens
対応言語: 日本語、英語
総パラメータ数: 268,098,176
量子化後サイズ: 156MB
Bits per parameter: 5.006

ファインチューニング設定

フレームワーク: Unsloth 2026.1.4
LoRA rank: 128
LoRA alpha: 128
Batch size: 8
Learning rate: 2e-4
Epochs: 3
Max sequence length: 2048

会話フォーマット

<start_of_turn>user
{ユーザーの質問}<end_of_turn>
<start_of_turn>model
{モデルの返答}<end_of_turn>

⚙️ 技術詳細

アーキテクチャ

hidden_size: 640
num_hidden_layers: 18
num_attention_heads: 4
num_key_value_heads: 1
intermediate_size: 2048
vocab_size: 262,144
sliding_window: 512

レイヤー構成

18層の構成（6層ごとにfull_attention、それ以外はsliding_attention）:

Layers 0-4: sliding_attention
Layer 5: full_attention
Layers 6-10: sliding_attention
Layer 11: full_attention
Layers 12-16: sliding_attention
Layer 17: full_attention

📦 ファイル一覧

ファイル名	サイズ	説明
`params_shard_0.bin`	80MB	モデル重み (シャード1)
`params_shard_1.bin`	32MB	モデル重み (シャード2)
`params_shard_2.bin`	32MB	モデル重み (シャード3)
`params_shard_3.bin`	452KB	モデル重み (シャード4)
`gemma3-270m-japanese-q4f32_1-ctx4k-webgpu.wasm`	5.5MB	WebGPU実行ファイル
`mlc-chat-config.json`	3.6KB	WebLLM設定
`tokenizer.json`	32MB	トークナイザー
`tokenizer.model`	4.5MB	トークナイザーモデル
`tokenizer_config.json`	1.2MB	トークナイザー設定
`tensor-cache.json`	126KB	テンソルキャッシュ

🌐 対応環境

デスクトップ

ブラウザ	バージョン	WebGPU	動作
Chrome	113+	✅	✅ 完全対応
Edge	113+	✅	✅ 完全対応
Opera	99+	✅	✅ 完全対応
Firefox	128+	⚠️	⚠️ 実験的
Safari	18.0+	✅	✅ 完全対応

モバイル

OS	ブラウザ	最小バージョン	動作
iOS	Safari	26.0+	✅ 完全対応
Android	Chrome	113+	✅ 完全対応

🔒 ライセンス

このモデルはGemmaライセンスに従います:

Gemma Terms of Use

🙏 謝辞

ベースモデル: Google Gemma Team
ファインチューニングフレームワーク: Unsloth
変換ツール: MLC LLM
WebLLM: MLC AI Community

📚 関連リンク

MLC LLM Documentation: https://llm.mlc.ai/docs/
WebLLM GitHub: https://github.com/mlc-ai/web-llm
Unsloth GitHub: https://github.com/unslothai/unsloth

📝 モデルカード

トレーニングデータ

日本語の対話データセットを使用してファインチューニングを実施。

想定される用途

日本語での会話型AI
ブラウザベースのチャットボット
モバイルアプリ内での推論
エッジデバイスでのオフライン推論

制限事項

コンテキスト長: 4096トークンに制限（WASMの制約）
量子化による若干の精度低下
WebGPU対応ブラウザが必要

倫理的考慮事項

このモデルは教育および研究目的で開発されました。以下の点に注意してください：

ファインチューニングされたモデルの出力は完全には制御できません
不適切または誤った情報を生成する可能性があります
プロダクション環境での使用前に十分なテストを実施してください

生成日: 2026年2月15日
モデルバージョン: v2
MLC LLMバージョン: nightly (2026.02)

Downloads last month: -; Downloads are not tracked for this model. How to track