Llama 3.2 3B Alpaca LoRA

このモデルは、Meta の Llama 3.2 3B Instruct を Alpaca データセットで LoRA ファインチューニングしたものです。

モデル概要

モデル説明

Llama 3.2 3B Instruct をベースに、Alpaca データセットを使って指示応答タスクに特化させた LoRA アダプターです。4-bit 量子化により、限られた VRAM でも効率的に動作します。

開発者: MakiAi
モデルタイプ: 因果言語モデル (Causal Language Model)
言語: 英語、日本語対応
ライセンス: Llama 3.2 Community License
ベースモデル: unsloth/Llama-3.2-3B-Instruct-bnb-4bit

リソース

リポジトリ: このページ
トレーニングコード: train_llama.py (同梱)

使用方法

直接使用

このモデルは、指示に基づいたテキスト生成タスクに最適化されています：

質問応答
タスク実行の指示
文章作成支援
対話システム

ダウンストリーム使用

さらなるファインチューニングや、より大きなアプリケーションへの統合が可能です。

適用範囲外の使用

医療診断や法的助言などの専門的判断
悪意のある用途（詐欺、ハラスメント等）
事実確認が重要な用途（モデルは hallucination を起こす可能性があります）

バイアス、リスク、制限事項

トレーニングデータに含まれるバイアスを反映する可能性があります
生成されたテキストの正確性は保証されません
倫理的に問題のある出力を生成する可能性があります

推奨事項

ユーザーは、モデルのリスクとバイアス、技術的制限を理解した上で使用してください。重要な判断には人間の監督が必要です。

使い方

インストール

pip install unsloth transformers accelerate peft

基本的な使用例

from unsloth import FastLanguageModel

# モデルとトークナイザーのロード
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="MakiAi/llama-3.2-3b-alpaca-lora",
    max_seq_length=2048,
    load_in_4bit=True,
)

# 推論用に最適化
FastLanguageModel.for_inference(model)

# プロンプトテンプレート
alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""

# テキスト生成
inputs = tokenizer(
    [alpaca_prompt.format(
        "日本の首都について教えてください。", # instruction
        "", # input
        "", # output (空欄で生成)
    )],
    return_tensors="pt"
).to("cuda")

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
    use_cache=True
)

print(tokenizer.batch_decode(outputs))

PEFT を使った使用例

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
import torch

# ベースモデルのロード
base_model = AutoModelForCausalLM.from_pretrained(
    "unsloth/Llama-3.2-3B-Instruct-bnb-4bit",
    device_map="auto",
    load_in_4bit=True,
)

tokenizer = AutoTokenizer.from_pretrained("unsloth/Llama-3.2-3B-Instruct-bnb-4bit")

# LoRA アダプターの適用
model = PeftModel.from_pretrained(base_model, "MakiAi/llama-3.2-3b-alpaca-lora")

# 推論
inputs = tokenizer("Tell me about artificial intelligence.", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

トレーニング詳細

トレーニングデータ

データセット: yahma/alpaca-cleaned
サンプル数: 51,760
データ形式: Instruction-Input-Output

Alpaca データセットは、指示応答タスクのための高品質な英語データセットです。

トレーニング手順

LoRA 設定

パラメータ	値
LoRA rank (r)	16
LoRA alpha	16
LoRA dropout	0
Target modules	q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
Trainable parameters	24,313,856 (0.75%)

トレーニングハイパーパラメータ

パラメータ	値
Batch size (per device)	2
Gradient accumulation steps	4
実効バッチサイズ	8
学習率	2e-4
Warmup steps	5
Max steps	30
最適化手法	adamw_8bit
Max sequence length	2048
Training regime	FP16 mixed precision

速度・サイズ・時間

トレーニング時間: 109秒 (約1.8分)
GPU: NVIDIA Tesla T4 (15GB VRAM)
最終 Loss: 1.287
初期 Loss: 1.651
アダプターサイズ: 93MB

評価

このモデルは、30ステップの短期トレーニングであるため、本格的なベンチマーク評価は行っていません。

トレーニング結果

指標	値
最終 Training Loss	1.287
初期 Training Loss	1.651 (step 10)
Loss 改善率	22.1%

環境への影響

カーボンフットプリントは Machine Learning Impact calculator を使って推定できます。

ハードウェアタイプ: NVIDIA Tesla T4
使用時間: 約2分
クラウドプロバイダー: Google Colab
リージョン: 不明
推定 CO2 排出量: 微小 (短時間トレーニングのため)

技術仕様

モデルアーキテクチャ

ベースアーキテクチャ: Llama 3.2 (Transformer Decoder)
パラメータ数: 3B (ベースモデル)
LoRA パラメータ: 24.3M (訓練可能)
量子化: 4-bit (bitsandbytes)

計算インフラ

ハードウェア

GPU: NVIDIA Tesla T4
VRAM: 15GB
プラットフォーム: Google Colab

ソフトウェア

フレームワーク: Unsloth 2026.1.2
PyTorch: 2.5.1+cu121
Transformers: 4.57.3
PEFT: 0.18.0
TRL: 0.24.0
bitsandbytes: 0.49.0

引用

このモデルを使用する場合は、以下の形式で引用してください：

BibTeX:

@misc{llama32alpaca2026,
  title={Llama 3.2 3B Alpaca LoRA},
  author={MakiAi},
  year={2026},
  publisher={Hugging Face},
  howpublished={\url{https://huggingface.co/MakiAi/llama-3.2-3b-alpaca-lora}}
}

謝辞

Meta AI - Llama 3.2 モデルの開発
Unsloth AI - 高速ファインチューニングフレームワーク
Stanford - Alpaca データセット

Model Card 作成者

MakiAi

連絡先

Hugging Face のディスカッションセクションをご利用ください。

生成日: 2026-01-05 最終更新: 2026-01-05

Downloads last month: 1