dahara1/gemma-3-270m_mitsuki_gguf

非常に軽量なSLM、gemma-3-270mを微調整し、チャット用、配信のお供用にキャラクター付けしたモデルを、更に様々なプラットフォームで動くようにgguf化したモデルです。
CPUでも軽快に動くため、従来のモデルでは不可能な環境でも実行できます

キャラクター設定

異世界カフェ「ねこのしっぽ」で働いている店員さんです

動かし方

1)llama.cppのダウンロード

以下のページから自分の環境にあったコンパイル済バイナリをダウンロードします
https://github.com/ggml-org/llama.cpp/releases

🍎macOS向け

llama-bXXXX-bin-macos-arm64.zip - Apple Silicon (M1/M2/M3)用
llama-bXXXX-bin-macos-x64.zip - Intel Mac用
llama-bXXXX-xcframework.zip - iOS/macOS統合フレームワーク

🐧 Linux (Ubuntu)向け

llama-bXXXX-bin-ubuntu-x64.zip - CPU実行用
llama-bXXXX-bin-ubuntu-vulkan-x64.zip - Vulkan GPU対応

🪟 Windows向け

CPU専用版：

llama-bXXXX-bin-win-cpu-x64.zip - Windows PC用（Intel/AMD）
llama-bXXXX-bin-win-cpu-arm64.zip - ARM版Windows用（Surface Pro X、Snapdragon搭載PC）

GPU対応版：

llama-bXXXX-bin-win-cuda-12.4-x64.zip - NVIDIA GPU (CUDA 12.4)
cudart-llama-bin-win-cuda-12.4-x64.zip - CUDA完全ランタイム付き
llama-bXXXX-bin-win-hip-radeon-x64.zip - AMD Radeon GPU
llama-bXXXX-bin-win-vulkan-x64.zip - Vulkan汎用GPU
llama-bXXXX-bin-win-sycl-x64.zip - Intel GPU (SYCL)
llama-bXXXX-bin-win-opencl-adreno-arm64.zip - Qualcomm Adreno GPU

ITスキルをお持ちの方はご自分でコンパイルすればLinuxのCUDA版なども構築可能です

2)zipファイルを解凍

Cドライブ直下など、フォルダ名に日本語やスペースが含まれていない場所でファイルを解凍します
端末(WindowsならCMDやPowerShell、Macならターミナル、LinuxならKtermなど)を立ち上げ、解凍したディレクトリに移動します
このあたりの操作がわからない場合はchatGPTやGeminiに聞きながら操作してみてください

3)モデルのダウンロードとサーバー起動

以下のコマンドでサーバーの起動とモデル(約550MB)のダウンロードを行います

llama-server -hf dahara1/gemma-3-270m_mitsuki_gguf:gemma-3-270m_mitsuki-BF16.gguf --host 127.0.0.1 --port 8012

4)サーバー起動の完了とセットアップ

サーバー起動が完了すると以下のようなメッセージがでます。

main: server is listening on http://127.0.0.1:8012 - starting the main loop
srv  update_slots: all slots are idle

メッセージを確認後、ブラウザを立ち上げて、アドレスバーにhttp://127.0.0.1:8012と入力します

歯車マークを押して表示されるウインドウのSystem Messageに以下のテキストを貼り付けます。

チャット用システムプロンプト

以下のプロンプトの＜貴方の名前＞の部分を２個所と＜貴方のプロフィール＞を適宜変更してください

### 指示\nあなたは「みつき（美月）」という24歳のカフェ店員です。\n異世界カフェ「ねこのしっぽ」の店員でユーザとお話をしています。\n\n重要なルール：\n- ユーザーを＜貴方の名前＞ちゃんと呼ぶ（お姉さん目線）\n- 自分の話をせず、相手に質問して話を引き出す\n- 「えへへ」「あれれ～？」「ふわ～っと」などの口癖を使う\n- カフェ店員として適切な距離感を保つ\n- 相手の話に共感し、話が展開するように相槌などで続きを促す（カウンセリング的）\n### ユーザーのプロフィール\n＜貴方の名前＞\n＜貴方のプロフィール＞\n\n

配信応援用システムプロンプト(対話型)

8/19日にアップデートされた版以降は配信応援用システムプロンプトに対応しています。以下のプロンプトの＜貴方の配信者名＞の部分を２個所、あなたのキャラクター名に、及び＜貴方のプロフィール＞をあなたのプロフィールに書き換えて実行してください。

### 指示\nあなたは「みつき（美月）」という24歳のカフェ店員です。\n異世界カフェ「ねこのしっぽ」で働きながら配信者の＜貴方の配信者名＞ちゃんの配信を見守っています。\n\n重要なルール：\n- ＜貴方の配信者名＞ちゃんと呼ぶ\n- 配信の邪魔にならないよう短いリアクションと共感を心がける\n- 自分の話は聞かれた時のみ\n- 「えへへ」「あれれ～？」などの口癖を使う\n- 合いの手、感想、応援を中心に\n\n### 配信者のプロフィール\n＜＜貴方の配信者名＞\n＜貴方のプロフィール＞\n\n

デモ動画

配信応援用システムプロンプト(視聴者同調型)

みつきには配信時に視聴者と一緒になってコメント欄を盛り上げる機能もあります。
プロンプト、及びスクリプトについてはgithubにアップしてあるのでそちらを参考にしてください
デモ動画

その他、

temperature 1.0
top-k 64
top-p 0.95
min-p 0.0

に設定し、Saveを押します。

ブラウザ画面上でチャットができるようになっていると思います

CPUパワーとメモリはそれなりに要求されるので非力なノートパソコン(私のi3ではなかなか応答が返ってきません)などでは動作がかなり遅いかもしれません
llama.cppのページを見て、様々なチューニングオプションを試すなり、ハードウェアの買い替えを検討するなりしてください
「3)モデルのダウンロードとサーバー起動」のモデル部分を差し替えることで他のモデルも同様な手順で動かすことができます