Configuration Parsing Warning:Config file tokenizer_config.json cannot be fetched (too big)
Gemma 3 270M Japanese Fine-tuned v2 (WebLLM / iPhone対応)
このモデルは、Gemma 3 270Mをベースに日本語データでファインチューニングし、WebLLM (MLC LLM)形式に変換した第2版です。
🆕 第2版の改善点
- 最新のトレーニングデータ: より高品質なデータセットで再訓練
- 最適化されたハイパーパラメータ: LoRA rank 128、batch size 8で訓練
- 同じWASM互換性: gemma3-270m-01と同じWASMファイルを使用可能
📱 iOS/iPhone対応
- 量子化方式: q4f32_1 (iOS Safari完全対応)
- WebGPU: iOS Safari 26.0+で動作
- shader-f16拡張: 不要
- サイズ: 約187MB (モデル: 145MB、WASM: 5.5MB、トークナイザー: 38MB)
🚀 使用方法
WebLLMでの使用
import { CreateMLCEngine } from "@mlc-ai/web-llm";
const customModel = {
model: "https://huggingface.co/UMASHIKA/gemma3-270m-japanese-webllm-02",
model_id: "gemma3-270m-japanese-v2",
model_lib: "https://huggingface.co/UMASHIKA/gemma3-270m-japanese-webllm-02/resolve/main/gemma3-270m-japanese-q4f32_1-ctx4k-webgpu.wasm",
vram_required_MB: 900,
low_resource_required: true,
};
const engine = await CreateMLCEngine(customModel.model_id, {
appConfig: {
model_list: [customModel]
},
});
const reply = await engine.chat.completions.create({
messages: [{ role: "user", content: "こんにちは!最近の技術トレンドについて教えてください。" }],
temperature: 0.7,
max_tokens: 512,
});
console.log(reply.choices[0].message.content);
Reactでの使用例
import { useEffect, useState } from "react";
import * as webllm from "@mlc-ai/web-llm";
function ChatApp() {
const [engine, setEngine] = useState<webllm.MLCEngineInterface | null>(null);
const [messages, setMessages] = useState<webllm.ChatCompletionMessageParam[]>([]);
useEffect(() => {
async function initEngine() {
const customModel = {
model: "https://huggingface.co/UMASHIKA/gemma3-270m-japanese-webllm-02",
model_id: "gemma3-270m-japanese-v2",
model_lib: "https://huggingface.co/UMASHIKA/gemma3-270m-japanese-webllm-02/resolve/main/gemma3-270m-japanese-q4f32_1-ctx4k-webgpu.wasm",
};
const engine = await webllm.CreateMLCEngine(customModel.model_id, {
appConfig: { model_list: [customModel] },
});
setEngine(engine);
}
initEngine();
}, []);
// ... チャットロジック
}
📊 モデル情報
基本仕様
- ベースモデル: Google Gemma 3 270M
- 量子化: q4f32_1 (4-bit weights + float32 activations)
- コンテキスト長: 4096 tokens
- 対応言語: 日本語、英語
- 総パラメータ数: 268,098,176
- 量子化後サイズ: 156MB
- Bits per parameter: 5.006
ファインチューニング設定
- フレームワーク: Unsloth 2026.1.4
- LoRA rank: 128
- LoRA alpha: 128
- Batch size: 8
- Learning rate: 2e-4
- Epochs: 3
- Max sequence length: 2048
会話フォーマット
<start_of_turn>user
{ユーザーの質問}<end_of_turn>
<start_of_turn>model
{モデルの返答}<end_of_turn>
⚙️ 技術詳細
アーキテクチャ
- hidden_size: 640
- num_hidden_layers: 18
- num_attention_heads: 4
- num_key_value_heads: 1
- intermediate_size: 2048
- vocab_size: 262,144
- sliding_window: 512
レイヤー構成
18層の構成(6層ごとにfull_attention、それ以外はsliding_attention):
- Layers 0-4: sliding_attention
- Layer 5: full_attention
- Layers 6-10: sliding_attention
- Layer 11: full_attention
- Layers 12-16: sliding_attention
- Layer 17: full_attention
📦 ファイル一覧
| ファイル名 | サイズ | 説明 |
|---|---|---|
params_shard_0.bin |
80MB | モデル重み (シャード1) |
params_shard_1.bin |
32MB | モデル重み (シャード2) |
params_shard_2.bin |
32MB | モデル重み (シャード3) |
params_shard_3.bin |
452KB | モデル重み (シャード4) |
gemma3-270m-japanese-q4f32_1-ctx4k-webgpu.wasm |
5.5MB | WebGPU実行ファイル |
mlc-chat-config.json |
3.6KB | WebLLM設定 |
tokenizer.json |
32MB | トークナイザー |
tokenizer.model |
4.5MB | トークナイザーモデル |
tokenizer_config.json |
1.2MB | トークナイザー設定 |
tensor-cache.json |
126KB | テンソルキャッシュ |
🌐 対応環境
デスクトップ
| ブラウザ | バージョン | WebGPU | 動作 |
|---|---|---|---|
| Chrome | 113+ | ✅ | ✅ 完全対応 |
| Edge | 113+ | ✅ | ✅ 完全対応 |
| Opera | 99+ | ✅ | ✅ 完全対応 |
| Firefox | 128+ | ⚠️ | ⚠️ 実験的 |
| Safari | 18.0+ | ✅ | ✅ 完全対応 |
モバイル
| OS | ブラウザ | 最小バージョン | 動作 |
|---|---|---|---|
| iOS | Safari | 26.0+ | ✅ 完全対応 |
| Android | Chrome | 113+ | ✅ 完全対応 |
🔒 ライセンス
このモデルはGemmaライセンスに従います:
🙏 謝辞
- ベースモデル: Google Gemma Team
- ファインチューニングフレームワーク: Unsloth
- 変換ツール: MLC LLM
- WebLLM: MLC AI Community
📚 関連リンク
- MLC LLM Documentation: https://llm.mlc.ai/docs/
- WebLLM GitHub: https://github.com/mlc-ai/web-llm
- Unsloth GitHub: https://github.com/unslothai/unsloth
📝 モデルカード
トレーニングデータ
日本語の対話データセットを使用してファインチューニングを実施。
想定される用途
- 日本語での会話型AI
- ブラウザベースのチャットボット
- モバイルアプリ内での推論
- エッジデバイスでのオフライン推論
制限事項
- コンテキスト長: 4096トークンに制限(WASMの制約)
- 量子化による若干の精度低下
- WebGPU対応ブラウザが必要
倫理的考慮事項
このモデルは教育および研究目的で開発されました。以下の点に注意してください:
- ファインチューニングされたモデルの出力は完全には制御できません
- 不適切または誤った情報を生成する可能性があります
- プロダクション環境での使用前に十分なテストを実施してください
生成日: 2026年2月15日
モデルバージョン: v2
MLC LLMバージョン: nightly (2026.02)