feat: A100 full-dataset — 전체 232K, batch×2, seq×2

#8
by siwo - opened

변경 사항

A100 80GB 성능이 예상보다 빠르므로 전체 데이터셋으로 학습 범위 확대.

항목 변경 전 변경 후
TRAIN_SAMPLE_SIZE 50,000 None (전체 232K)
BATCH_SIZE 4 8
MAX_SEQ_LENGTH 1024 2048

근거

  • A100 80GB 여유 VRAM 충분 (4-bit QLoRA 기준 ~16GB 모델 가중치)
  • 법률 데이터 긴 샘플(판례 맥락 포함) 일부 1024 초과 → 2048이 유의미
  • 전체 데이터셋 사용으로 법률 커버리지 향상
siwo changed pull request status to merged

Sign up or log in to comment