Configuration Parsing Warning:Config file tokenizer_config.json cannot be fetched (too big)

Gemma 3 270M Japanese Fine-tuned v2 (WebLLM / iPhone対応)

このモデルは、Gemma 3 270Mをベースに日本語データでファインチューニングし、WebLLM (MLC LLM)形式に変換した第2版です。

🆕 第2版の改善点

  • 最新のトレーニングデータ: より高品質なデータセットで再訓練
  • 最適化されたハイパーパラメータ: LoRA rank 128、batch size 8で訓練
  • 同じWASM互換性: gemma3-270m-01と同じWASMファイルを使用可能

📱 iOS/iPhone対応

  • 量子化方式: q4f32_1 (iOS Safari完全対応)
  • WebGPU: iOS Safari 26.0+で動作
  • shader-f16拡張: 不要
  • サイズ: 約187MB (モデル: 145MB、WASM: 5.5MB、トークナイザー: 38MB)

🚀 使用方法

WebLLMでの使用

import { CreateMLCEngine } from "@mlc-ai/web-llm";

const customModel = {
  model: "https://huggingface.co/UMASHIKA/gemma3-270m-japanese-webllm-02",
  model_id: "gemma3-270m-japanese-v2",
  model_lib: "https://huggingface.co/UMASHIKA/gemma3-270m-japanese-webllm-02/resolve/main/gemma3-270m-japanese-q4f32_1-ctx4k-webgpu.wasm",
  vram_required_MB: 900,
  low_resource_required: true,
};

const engine = await CreateMLCEngine(customModel.model_id, {
  appConfig: { 
    model_list: [customModel] 
  },
});

const reply = await engine.chat.completions.create({
  messages: [{ role: "user", content: "こんにちは!最近の技術トレンドについて教えてください。" }],
  temperature: 0.7,
  max_tokens: 512,
});

console.log(reply.choices[0].message.content);

Reactでの使用例

import { useEffect, useState } from "react";
import * as webllm from "@mlc-ai/web-llm";

function ChatApp() {
  const [engine, setEngine] = useState<webllm.MLCEngineInterface | null>(null);
  const [messages, setMessages] = useState<webllm.ChatCompletionMessageParam[]>([]);
  
  useEffect(() => {
    async function initEngine() {
      const customModel = {
        model: "https://huggingface.co/UMASHIKA/gemma3-270m-japanese-webllm-02",
        model_id: "gemma3-270m-japanese-v2",
        model_lib: "https://huggingface.co/UMASHIKA/gemma3-270m-japanese-webllm-02/resolve/main/gemma3-270m-japanese-q4f32_1-ctx4k-webgpu.wasm",
      };
      
      const engine = await webllm.CreateMLCEngine(customModel.model_id, {
        appConfig: { model_list: [customModel] },
      });
      
      setEngine(engine);
    }
    
    initEngine();
  }, []);
  
  // ... チャットロジック
}

📊 モデル情報

基本仕様

  • ベースモデル: Google Gemma 3 270M
  • 量子化: q4f32_1 (4-bit weights + float32 activations)
  • コンテキスト長: 4096 tokens
  • 対応言語: 日本語、英語
  • 総パラメータ数: 268,098,176
  • 量子化後サイズ: 156MB
  • Bits per parameter: 5.006

ファインチューニング設定

  • フレームワーク: Unsloth 2026.1.4
  • LoRA rank: 128
  • LoRA alpha: 128
  • Batch size: 8
  • Learning rate: 2e-4
  • Epochs: 3
  • Max sequence length: 2048

会話フォーマット

<start_of_turn>user
{ユーザーの質問}<end_of_turn>
<start_of_turn>model
{モデルの返答}<end_of_turn>

⚙️ 技術詳細

アーキテクチャ

  • hidden_size: 640
  • num_hidden_layers: 18
  • num_attention_heads: 4
  • num_key_value_heads: 1
  • intermediate_size: 2048
  • vocab_size: 262,144
  • sliding_window: 512

レイヤー構成

18層の構成(6層ごとにfull_attention、それ以外はsliding_attention):

  • Layers 0-4: sliding_attention
  • Layer 5: full_attention
  • Layers 6-10: sliding_attention
  • Layer 11: full_attention
  • Layers 12-16: sliding_attention
  • Layer 17: full_attention

📦 ファイル一覧

ファイル名 サイズ 説明
params_shard_0.bin 80MB モデル重み (シャード1)
params_shard_1.bin 32MB モデル重み (シャード2)
params_shard_2.bin 32MB モデル重み (シャード3)
params_shard_3.bin 452KB モデル重み (シャード4)
gemma3-270m-japanese-q4f32_1-ctx4k-webgpu.wasm 5.5MB WebGPU実行ファイル
mlc-chat-config.json 3.6KB WebLLM設定
tokenizer.json 32MB トークナイザー
tokenizer.model 4.5MB トークナイザーモデル
tokenizer_config.json 1.2MB トークナイザー設定
tensor-cache.json 126KB テンソルキャッシュ

🌐 対応環境

デスクトップ

ブラウザ バージョン WebGPU 動作
Chrome 113+ ✅ 完全対応
Edge 113+ ✅ 完全対応
Opera 99+ ✅ 完全対応
Firefox 128+ ⚠️ ⚠️ 実験的
Safari 18.0+ ✅ 完全対応

モバイル

OS ブラウザ 最小バージョン 動作
iOS Safari 26.0+ ✅ 完全対応
Android Chrome 113+ ✅ 完全対応

🔒 ライセンス

このモデルはGemmaライセンスに従います:

🙏 謝辞

📚 関連リンク

📝 モデルカード

トレーニングデータ

日本語の対話データセットを使用してファインチューニングを実施。

想定される用途

  • 日本語での会話型AI
  • ブラウザベースのチャットボット
  • モバイルアプリ内での推論
  • エッジデバイスでのオフライン推論

制限事項

  • コンテキスト長: 4096トークンに制限(WASMの制約)
  • 量子化による若干の精度低下
  • WebGPU対応ブラウザが必要

倫理的考慮事項

このモデルは教育および研究目的で開発されました。以下の点に注意してください:

  • ファインチューニングされたモデルの出力は完全には制御できません
  • 不適切または誤った情報を生成する可能性があります
  • プロダクション環境での使用前に十分なテストを実施してください

生成日: 2026年2月15日
モデルバージョン: v2
MLC LLMバージョン: nightly (2026.02)

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support