merchant-consumption-category-discriminator-v3

모델 개요

이 모델은 한국어 가맹점명을 입력받아 소비 카테고리를 분류하기 위한 KoELECTRA 기반 분류 모델입니다.
가맹점명에는 업종을 설명하는 핵심 토큰과 지점명, 지역명, 숫자, 괄호 같은 부가 정보가 함께 포함되는 경우가 많아, 이를 안정적으로 구분할 수 있도록 설계했습니다.

모델 정보

Model ID: kakao1513/merchant-consumption-category-discriminator-v3
Base checkpoint: monologg/koelectra-base-v3-discriminator
Architecture: KoELECTRA encoder + attention pooling classifier
Max length: 64
Num labels: 15
Loading: trust_remote_code=True 필요

전처리

입력 텍스트에는 다음 전처리를 적용했습니다.

NFKC 정규화
공백/개행 정리
casefold 기반 정규화 텍스트 생성

예를 들어 아래와 같은 표기 차이를 최대한 일관된 형태로 맞추도록 구성했습니다.

원본 입력	정규화 예시
`ＡＢＣ마트`	`abc마트`
`스타벅스 강남R점`	`스타벅스 강남r점`
`메가커피\n(죽전점)`	`메가커피 (죽전점)`

학습 방식

기본 KoELECTRA의 [CLS] pooling 방식 대신, 토큰별 중요도를 학습하는 attention pooling head를 사용했습니다.
또한 학습 시에는 지점명, 층수, 괄호, 지역명 등 뒤쪽 접미 정보를 일부러 섞는 suffix/branch noise augmentation을 적용해, 가맹점명 변형에 더 강하게 동작하도록 구성했습니다.

성능

service_test f1_macro 기준 성능은 다음과 같습니다.

model_variant	f1_macro
baseline	0.7825
v3	0.8308

입력/출력 예시

입력 가맹점명	예측 예시
`스타벅스 강남R점`	`카페`
`다이소 죽전점`	`생활`
`버거킹 판교역점`	`식비`

사용 예시

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_id = "kakao1513/merchant-consumption-category-discriminator-v3"

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForSequenceClassification.from_pretrained(model_id, trust_remote_code=True)

merchant_text = "스타벅스 강남R점"

encoded = tokenizer(
    merchant_text,
    return_tensors="pt",
    truncation=True,
    max_length=64,
)

with torch.no_grad():
    logits = model(**encoded).logits

predicted_label_id = int(logits.argmax(dim=-1).item())
label_name = model.config.id2label.get(
    predicted_label_id,
    model.config.id2label.get(str(predicted_label_id))
)

print(label_name)

참고사항

이 모델은 커스텀 attention pooling 클래스를 포함하므로 trust_remote_code=True가 필요합니다.

Downloads last month: 80

Safetensors

Model size

0.1B params

Tensor type

F32