Llama 3.2 3B Alpaca LoRA

このモデルは、Meta の Llama 3.2 3B InstructAlpaca データセット で LoRA ファインチューニングしたものです。

モデル概要

モデル説明

Llama 3.2 3B Instruct をベースに、Alpaca データセットを使って指示応答タスクに特化させた LoRA アダプターです。4-bit 量子化により、限られた VRAM でも効率的に動作します。

  • 開発者: MakiAi
  • モデルタイプ: 因果言語モデル (Causal Language Model)
  • 言語: 英語、日本語対応
  • ライセンス: Llama 3.2 Community License
  • ベースモデル: unsloth/Llama-3.2-3B-Instruct-bnb-4bit

リソース

  • リポジトリ: このページ
  • トレーニングコード: train_llama.py (同梱)

使用方法

直接使用

このモデルは、指示に基づいたテキスト生成タスクに最適化されています:

  • 質問応答
  • タスク実行の指示
  • 文章作成支援
  • 対話システム

ダウンストリーム使用

さらなるファインチューニングや、より大きなアプリケーションへの統合が可能です。

適用範囲外の使用

  • 医療診断や法的助言などの専門的判断
  • 悪意のある用途(詐欺、ハラスメント等)
  • 事実確認が重要な用途(モデルは hallucination を起こす可能性があります)

バイアス、リスク、制限事項

  • トレーニングデータに含まれるバイアスを反映する可能性があります
  • 生成されたテキストの正確性は保証されません
  • 倫理的に問題のある出力を生成する可能性があります

推奨事項

ユーザーは、モデルのリスクとバイアス、技術的制限を理解した上で使用してください。重要な判断には人間の監督が必要です。

使い方

インストール

pip install unsloth transformers accelerate peft

基本的な使用例

from unsloth import FastLanguageModel

# モデルとトークナイザーのロード
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="MakiAi/llama-3.2-3b-alpaca-lora",
    max_seq_length=2048,
    load_in_4bit=True,
)

# 推論用に最適化
FastLanguageModel.for_inference(model)

# プロンプトテンプレート
alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""

# テキスト生成
inputs = tokenizer(
    [alpaca_prompt.format(
        "日本の首都について教えてください。", # instruction
        "", # input
        "", # output (空欄で生成)
    )],
    return_tensors="pt"
).to("cuda")

outputs = model.generate(
    **inputs,
    max_new_tokens=256,
    use_cache=True
)

print(tokenizer.batch_decode(outputs))

PEFT を使った使用例

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
import torch

# ベースモデルのロード
base_model = AutoModelForCausalLM.from_pretrained(
    "unsloth/Llama-3.2-3B-Instruct-bnb-4bit",
    device_map="auto",
    load_in_4bit=True,
)

tokenizer = AutoTokenizer.from_pretrained("unsloth/Llama-3.2-3B-Instruct-bnb-4bit")

# LoRA アダプターの適用
model = PeftModel.from_pretrained(base_model, "MakiAi/llama-3.2-3b-alpaca-lora")

# 推論
inputs = tokenizer("Tell me about artificial intelligence.", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

トレーニング詳細

トレーニングデータ

  • データセット: yahma/alpaca-cleaned
  • サンプル数: 51,760
  • データ形式: Instruction-Input-Output

Alpaca データセットは、指示応答タスクのための高品質な英語データセットです。

トレーニング手順

LoRA 設定

パラメータ
LoRA rank (r) 16
LoRA alpha 16
LoRA dropout 0
Target modules q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
Trainable parameters 24,313,856 (0.75%)

トレーニングハイパーパラメータ

パラメータ
Batch size (per device) 2
Gradient accumulation steps 4
実効バッチサイズ 8
学習率 2e-4
Warmup steps 5
Max steps 30
最適化手法 adamw_8bit
Max sequence length 2048
Training regime FP16 mixed precision

速度・サイズ・時間

  • トレーニング時間: 109秒 (約1.8分)
  • GPU: NVIDIA Tesla T4 (15GB VRAM)
  • 最終 Loss: 1.287
  • 初期 Loss: 1.651
  • アダプターサイズ: 93MB

評価

このモデルは、30ステップの短期トレーニングであるため、本格的なベンチマーク評価は行っていません。

トレーニング結果

指標
最終 Training Loss 1.287
初期 Training Loss 1.651 (step 10)
Loss 改善率 22.1%

環境への影響

カーボンフットプリントは Machine Learning Impact calculator を使って推定できます。

  • ハードウェアタイプ: NVIDIA Tesla T4
  • 使用時間: 約2分
  • クラウドプロバイダー: Google Colab
  • リージョン: 不明
  • 推定 CO2 排出量: 微小 (短時間トレーニングのため)

技術仕様

モデルアーキテクチャ

  • ベースアーキテクチャ: Llama 3.2 (Transformer Decoder)
  • パラメータ数: 3B (ベースモデル)
  • LoRA パラメータ: 24.3M (訓練可能)
  • 量子化: 4-bit (bitsandbytes)

計算インフラ

ハードウェア

  • GPU: NVIDIA Tesla T4
  • VRAM: 15GB
  • プラットフォーム: Google Colab

ソフトウェア

  • フレームワーク: Unsloth 2026.1.2
  • PyTorch: 2.5.1+cu121
  • Transformers: 4.57.3
  • PEFT: 0.18.0
  • TRL: 0.24.0
  • bitsandbytes: 0.49.0

引用

このモデルを使用する場合は、以下の形式で引用してください:

BibTeX:

@misc{llama32alpaca2026,
  title={Llama 3.2 3B Alpaca LoRA},
  author={MakiAi},
  year={2026},
  publisher={Hugging Face},
  howpublished={\url{https://huggingface.co/MakiAi/llama-3.2-3b-alpaca-lora}}
}

謝辞

  • Meta AI - Llama 3.2 モデルの開発
  • Unsloth AI - 高速ファインチューニングフレームワーク
  • Stanford - Alpaca データセット

Model Card 作成者

MakiAi

連絡先

Hugging Face のディスカッションセクションをご利用ください。


生成日: 2026-01-05 最終更新: 2026-01-05

Downloads last month
1
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support