HACHI-Summary-Ja-sarashina2.2-0.5b-instruct-v0.1

For a comprehensive deep dive into the model's architecture, training methodology, and performance benchmarks, please follow the pawprints to our technical report (available in Japanese). 🐕🐾

Overview

HACHI-Summary-Ja-sarashina2.2-0.5b-instruct-v0.1 is a commercially viable Japanese Small Language Model (SLM) optimized for high-performance extractive summarization. It is specifically designed for professional sectors where factual integrity is non-negotiable, such as legal affairs, research, healthcare, and finance.

Built upon SB Intuitions' sarashina2.2-0.5b-instruct-v0.1, this model utilizes a knowledge distillation approach to inherit advanced processing capabilities from frontier LLMs while maintaining a lightweight footprint.

Key Features and Use Cases

  • High-Fidelity Extractive Summarization: Expertly preserves proper nouns, numerical data, units, chronological order, and causal relationships within reports and articles.
  • Optimized for Edge Deployment: With only 0.5B parameters, it enables rapid inference and integration into resource-constrained environments or edge devices.
  • Commercial Readiness: Released under the Apache-2.0 license, providing a transparent and reliable AI foundation for commercial applications, modifications, and redistribution.

Evaluation

Benchmarking Methodology

Traditional benchmarks like XLSUM-ja primarily measure "abstractive summarization" (paraphrasing based on context). For models like HACHI-Summary-Ja, which prioritize the precise transcription of original data points, standard abstractive scores may not fully reflect their utility.

To address this, we developed HES-Ja (HACHI-Extractive-Summarization-Ja). We extracted 100 test cases from XLSUM and created a new evaluation set focused on the exact preservation of proper nouns, numerical values (including character-specific notations), and logical flow.

Detailed articles and the full HES-Ja dataset are scheduled for public release in the near future.

Benchmark Results

XLSUM-ja Evaluation (Abstractive Metrics)

Performance in general summarization tasks. The model shows significant strength when specific character constraints are applied.

Model BLEU ROUGE-2 ROUGE-L
Qwen3-0.6B 0.0147 0.0419 0.0837
gemma-3-270m-it 0.0328 0.0788 0.1549
granite-4.0-350m 0.0343 0.0728 0.1575
sarashina2.2-0.5b-instruct-v0.1 (Base) 0.0263 0.0731 0.1317
HACHI-Summary-Ja 0.0276 0.0747 0.1363
HACHI-Summary-Ja (approx. 100 chars) 0.0412 0.0748 0.2055

HES-Ja Evaluation (Extractive Metrics)

This benchmark measures the accuracy of information transcription. HACHI-Summary-Ja outperforms all other tested SLMs across every metric.

Model BLEU ROUGE-2 ROUGE-L
Qwen3-0.6B 0.0963 0.1496 0.1820
gemma-3-270m-it 0.1960 0.3029 0.3403
granite-4.0-350m 0.1003 0.1963 0.2330
sarashina2.2-0.5b-instruct-v0.1 (Base) 0.2457 0.3394 0.3635
HACHI-Summary-Ja 0.2757 0.3644 0.4044

Usage

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

# ===== settings =====

# "","三行","100", "300", "500"から要約条件を設定
SUMMARY_MODE = ""

# 要約したいテキスト
TEXT = """忠犬ハチ公

犬種は秋田犬(あきたいぬ)で、性別はオス。名前はハチ。ハチ公の愛称でも知られる。
ハチが飼い主を待ち続けた渋谷駅の出入り口の前には、ハチの銅像が設置されており、この「忠犬ハチ公像」は、渋谷のシンボルとして、観光名所としても有名である。

ハチは、飼い主が死去した後も駅前で帰りを待ち続けた「忠犬」として知られる。東京・渋谷をはじめ、ゆかりの地には像が置かれている。
特に、渋谷駅前のハチ公銅像は、いつしか待ち合わせの目印として使われるようになり、その銅像周囲は待ち合わせ場所としては「ハチ公前」などと呼ばれ、広く親しまれている。

ハチの飼い主は、東京府豊多摩郡渋谷町大向(現・東京都渋谷区松濤一丁目)に住んでいた、東京帝国大学の教授・上野英三郎であった。
彼は、大変な愛犬家であり、ハチの前にもたくさんの犬を飼っていた。出かける時には、渋谷駅までハチを伴うことも多かった。
しかしながら、ハチを飼い始めた翌年にあたる1925年(大正14年)5月21日に上野は急死した。

上野の死後も、駅前で亡くなった飼い主の帰りを毎日待ち続けたハチの姿は、新聞記事に掲載され、人々に感銘を与えたことから「忠犬ハチ公」と呼ばれるようになった。
"""
# 出典:忠犬ハチ公(https://ja.wikipedia.org/wiki/%E5%BF%A0%E7%8A%AC%E3%83%8F%E3%83%81%E5%85%AC)

# ===== main  =====

SUMMARY_PROMPT_MAP = {
    "100": "原文を100字程度で簡潔に要約してください。",
    "300": "原文を300字程度で簡潔に要約してください。",
    "500": "原文を500字程度で簡潔に要約してください。",
    "三行": "原文を三行で簡潔に要約してください。",
}

SYSTEM_PROMPT = SUMMARY_PROMPT_MAP.get(
    SUMMARY_MODE,
    "原文を簡潔に要約してください。"
)

model_name = "hachi-intelligence/HACHI-Summary-Ja-sarashina2.2-0.5b-instruct-v0.1"

tokenizer = AutoTokenizer.from_pretrained(
    model_name,
)

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

chat_pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer
)

messages = [
    {"role": "system", "content": SYSTEM_PROMPT},
    {"role": "user", "content": TEXT}
]

outputs = chat_pipeline(
    messages,
    do_sample=False,
    # temperature=0.1,
    repetition_penalty=1.00,
    max_new_tokens=512,
    num_return_sequences=1,
)

generated_messages = outputs[0]["generated_text"]
summary = generated_messages[-1]["content"]


# ===== result =====
print("\n===== SYSTEM PROMPT =====")
print(SYSTEM_PROMPT)
print("===== SOURCE TEXT =====")
print(TEXT,f"({len(TEXT)}文字)")
print("\n===== SUMMARY =====")
print(summary,f"({len(summary)}文字)")

# ===== output =====
# 秋田犬(あきたいぬ)のオス・ハチは、飼い主が死去した後も渋谷駅の出入り口で帰りを待ち続けた「忠犬ハチ公」として知られる。東京・渋谷のハチ公銅像は渋谷のシンボルとして観光名所となり、待ち合わせの目印として「ハチ公前」と呼ばれる。飼い主は東京府豊多摩郡渋谷町大向(現・東京都渋谷区松濤一丁目)の東京帝国大学教授・上野英三郎で、ハチの前に多数の犬を飼っていた。1925年(大正14年)5月21日に上野が死去した後も、ハチは渋谷駅で 飼い主の帰りを待ち続け、新聞記事で「忠犬ハチ公」と称された。 (242文字)

Acknowledgements

License

This model is licensed under the Apache-2.0 License.

Downloads last month
8
Safetensors
Model size
0.8B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for hachi-intelligence/HACHI-Summary-Ja-sarashina2.2-0.5b-instruct-v0.1

Dataset used to train hachi-intelligence/HACHI-Summary-Ja-sarashina2.2-0.5b-instruct-v0.1

Space using hachi-intelligence/HACHI-Summary-Ja-sarashina2.2-0.5b-instruct-v0.1 1