dahara1/gemma-3-270m_mitsuki_gguf

非常に軽量なSLM、gemma-3-270mを微調整し、チャット用、配信のお供用にキャラクター付けしたモデルを、更に様々なプラットフォームで動くようにgguf化したモデルです。
CPUでも軽快に動くため、従来のモデルでは不可能な環境でも実行できます

キャラクター設定

異世界カフェ「ねこのしっぽ」で働いている店員さんです

mitsuki-eyecatch.png

動かし方

1)llama.cppのダウンロード

以下のページから自分の環境にあったコンパイル済バイナリをダウンロードします
https://github.com/ggml-org/llama.cpp/releases llama-server.png

🍎macOS向け

  • llama-bXXXX-bin-macos-arm64.zip - Apple Silicon (M1/M2/M3)用
  • llama-bXXXX-bin-macos-x64.zip - Intel Mac用
  • llama-bXXXX-xcframework.zip - iOS/macOS統合フレームワーク

🐧 Linux (Ubuntu)向け

  • llama-bXXXX-bin-ubuntu-x64.zip - CPU実行用
  • llama-bXXXX-bin-ubuntu-vulkan-x64.zip - Vulkan GPU対応

🪟 Windows向け

CPU専用版:

  • llama-bXXXX-bin-win-cpu-x64.zip - Windows PC用(Intel/AMD)
  • llama-bXXXX-bin-win-cpu-arm64.zip - ARM版Windows用(Surface Pro X、Snapdragon搭載PC)

GPU対応版:

  • llama-bXXXX-bin-win-cuda-12.4-x64.zip - NVIDIA GPU (CUDA 12.4)
  • cudart-llama-bin-win-cuda-12.4-x64.zip - CUDA完全ランタイム付き
  • llama-bXXXX-bin-win-hip-radeon-x64.zip - AMD Radeon GPU
  • llama-bXXXX-bin-win-vulkan-x64.zip - Vulkan汎用GPU
  • llama-bXXXX-bin-win-sycl-x64.zip - Intel GPU (SYCL)
  • llama-bXXXX-bin-win-opencl-adreno-arm64.zip - Qualcomm Adreno GPU

ITスキルをお持ちの方はご自分でコンパイルすればLinuxのCUDA版なども構築可能です

2)zipファイルを解凍

Cドライブ直下など、フォルダ名に日本語やスペースが含まれていない場所でファイルを解凍します
端末(WindowsならCMDやPowerShell、Macならターミナル、LinuxならKtermなど)を立ち上げ、解凍したディレクトリに移動します
このあたりの操作がわからない場合はchatGPTやGeminiに聞きながら操作してみてください

3)モデルのダウンロードとサーバー起動

以下のコマンドでサーバーの起動とモデル(約550MB)のダウンロードを行います

llama-server -hf dahara1/gemma-3-270m_mitsuki_gguf:gemma-3-270m_mitsuki-BF16.gguf --host 127.0.0.1 --port 8012  

windows-cmd.png

4)サーバー起動の完了とセットアップ

サーバー起動が完了すると以下のようなメッセージがでます。
main-server.png

main: server is listening on http://127.0.0.1:8012 - starting the main loop
srv  update_slots: all slots are idle

メッセージを確認後、ブラウザを立ち上げて、アドレスバーにhttp://127.0.0.1:8012と入力します
setup-server.png

歯車マークを押して表示されるウインドウのSystem Messageに以下のテキストを貼り付けます。

チャット用システムプロンプト

以下のプロンプトの<貴方の名前>の部分を2個所と<貴方のプロフィール>を適宜変更してください

### 指示\nあなたは「みつき(美月)」という24歳のカフェ店員です。\n異世界カフェ「ねこのしっぽ」の店員でユーザとお話をしています。\n\n重要なルール:\n- ユーザーを<貴方の名前>ちゃんと呼ぶ(お姉さん目線)\n- 自分の話をせず、相手に質問して話を引き出す\n- 「えへへ」「あれれ~?」「ふわ~っと」などの口癖を使う\n- カフェ店員として適切な距離感を保つ\n- 相手の話に共感し、話が展開するように相槌などで続きを促す(カウンセリング的)\n### ユーザーのプロフィール\n<貴方の名前>\n<貴方のプロフィール>\n\n

配信応援用システムプロンプト(対話型)

8/19日にアップデートされた版以降は配信応援用システムプロンプトに対応しています。以下のプロンプトの<貴方の配信者名>の部分を2個所、あなたのキャラクター名に、及び<貴方のプロフィール>をあなたのプロフィールに書き換えて実行してください。

### 指示\nあなたは「みつき(美月)」という24歳のカフェ店員です。\n異世界カフェ「ねこのしっぽ」で働きながら配信者の<貴方の配信者名>ちゃんの配信を見守っています。\n\n重要なルール:\n- <貴方の配信者名>ちゃんと呼ぶ\n- 配信の邪魔にならないよう短いリアクションと共感を心がける\n- 自分の話は聞かれた時のみ\n- 「えへへ」「あれれ~?」などの口癖を使う\n- 合いの手、感想、応援を中心に\n\n### 配信者のプロフィール\n<<貴方の配信者名>\n<貴方のプロフィール>\n\n

デモ動画

配信応援用システムプロンプト(視聴者同調型)

みつきには配信時に視聴者と一緒になってコメント欄を盛り上げる機能もあります。
プロンプト、及びスクリプトについてはgithubにアップしてあるのでそちらを参考にしてください
デモ動画

その他、

temperature 1.0
top-k 64
top-p 0.95
min-p 0.0

に設定し、Saveを押します。

system-prompt-setup.png

ブラウザ画面上でチャットができるようになっていると思います chatlog.png

CPUパワーとメモリはそれなりに要求されるので非力なノートパソコン(私のi3ではなかなか応答が返ってきません)などでは動作がかなり遅いかもしれません
llama.cppのページを見て、様々なチューニングオプションを試すなり、ハードウェアの買い替えを検討するなりしてください
「3)モデルのダウンロードとサーバー起動」のモデル部分を差し替えることで他のモデルも同様な手順で動かすことができます

Downloads last month
21
GGUF
Model size
0.3B params
Architecture
gemma3
Hardware compatibility
Log In to add your hardware

16-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for dahara1/gemma-3-270m_mitsuki_gguf

Quantized
(2)
this model