Anserwise commited on
Commit
21fe3ef
·
verified ·
1 Parent(s): dad6043

Update README: humble tone, remove competitive claims

Browse files
Files changed (1) hide show
  1. README.md +25 -56
README.md CHANGED
@@ -10,61 +10,55 @@ base_model:
10
  - FINAL-Bench/Darwin-28B-KR
11
  tags:
12
  - korean
13
- - awaxis
14
  - darwin
15
  - darwin-platform
16
- - reasoning
17
- - hybrid
18
  - merge
19
  ---
20
 
21
  # AWAXIS-Hybrid-28B
22
 
23
- > **AWAXIS-Think × Darwin Platform Hybrid — K-AI Leaderboard 1위 도전**
24
 
25
- AWAXIS-Think-28B Reasoning 능력에 Darwin Platform 한국어 가중치를 결합한 Smart MRI Layer-wise 머지 신작.
26
 
27
- ## 🏛 Hybrid Architecture
28
 
29
- 모델은 **AWAXIS Reasoning** + **Darwin Platform Korean** 두 가지 강점을 결합합니다.
30
-
31
- - **🧬 아버지**: [`Anserwise/AWAXIS-Think-28B`](https://huggingface.co/Anserwise/AWAXIS-Think-28B) — Reasoning 강점
32
- - **🧬 어머니**: [`FINAL-Bench/Darwin-28B-KR`](https://huggingface.co/FINAL-Bench/Darwin-28B-KR) — 한국어 도메인
33
-
34
- ## ✨ Highlight
35
-
36
- K-AI 환산 **0.560** (Quetta-V3 1위 동률 예상) · KMMLU-Pro 0.674 · MuSR(Ko) 0.611
37
 
38
  ---
39
 
40
  ## 📊 평가 결과
41
 
42
- ### 1) K-AI 리더보드 기준 (5과목 — 실제 점수 + Mirror Eval 환산 예상값)
43
 
44
  KMMLU-Pro / CLIcK / HLE(Ko) / MuSR(Ko) / Com2-main(ko)
45
- - **Quetta-V3, Rogue-28B-MIX**: K-AI 리더보드 실제 측정값 (leaderboard.aihub.or.kr)
46
- - **AWAXIS-Hybrid-28B**: 자체 mirror eval(100문항) × Rogue-MIX 기준 ratio 환산 예상값
47
 
48
- | 순위 | Model | KMMLU-Pro | CLIcK | HLE(Ko) | MuSR(Ko) | Com2-main(ko) | **Sum** | **Macro** |
49
- |:---:|-------|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
50
- | 🥇 동률 | **AWAXIS-Hybrid-28B** ⭐ (이 모델, 예상) | 0.674 | 0.787 | 0.07 | 0.611 | 0.657 | **2.799** | **0.560** |
51
- | 🥇 동률 | Quetta-V3 (실측) | 0.676 | 0.794 | 0.07 | 0.604 | 0.654 | **2.798** | **0.560** |
52
- | 🥉 3 | Rogue-28B-MIX (실측) | 0.666 | 0.797 | 0.07 | 0.611 | 0.650 | **2.794** | **0.559** |
53
- | 4 | Warecube-KO-27B-v3 (실측) | 0.668 | 0.799 | 0.067 | 0.584 | 0.638 | 2.756 | 0.551 |
54
- | 5 | AWAXIS-Think-28B (실측) | 0.603 | 0.770 | 0.055 | 0.591 | 0.632 | 2.651 | 0.530 |
55
 
56
- > **HLE(Ko)** 0.07은 28B급 공통 수준 (난이도 매우 높음).
 
 
 
 
 
 
 
 
57
 
58
- ### 2) 종합 한국어 능력 (10과목 mirror eval, 100문항씩)
 
 
 
59
 
60
  CLIcK + KMMLU(history/law/health) + HAERAE(gk/hist/ling) + KOBEST(hella/copa/boolq)
61
 
62
- | Model | CLIcK | KMMLU 평균 | HAERAE 평균 | KOBEST 평균 | **Sum (10)** | **Macro** |
63
  |-------|:---:|:---:|:---:|:---:|:---:|:---:|
64
- | **AWAXIS-Hybrid-28B** ⭐ | 0.83 | 0.530 | 0.813 | 0.967 | **7.760** | **0.7760** |
65
- | Quetta-V3 | 0.85 | 0.497 | 0.837 | 0.973 | **7.770** | **0.7770** |
66
 
67
- > KMMLU 평균에서 본 모델이 +0.033 (도메인 지식 우세), HAERAE에서 -0.024 (한국어 표면 패턴)
68
 
69
  ---
70
 
@@ -87,34 +81,9 @@ outputs = model.generate(inputs, max_new_tokens=256, temperature=0.0)
87
  print(tokenizer.decode(outputs[0][inputs.shape[1]:], skip_special_tokens=True))
88
  ```
89
 
90
- ## 머지 레시피
91
-
92
- Smart MRI Layer-wise — Layer 그룹별로 부모 가중치 비율을 다르게 적용
93
-
94
- | 영역 | 어머니(Darwin-28B-KR) 채택률 | 의도 |
95
- |------|:---:|------|
96
- | Embed / LM-head | 50% | 출력 통로 균형 |
97
- | Norm | 30% | 안정성 위주 |
98
- | Visual encoder | 0% | 아버지 보존 |
99
- | Layers 0~15 (초기) | 40% | 한국어 표면 패턴 |
100
- | Layers 16~50 (중기) | 0% | Reasoning 능력 보존 |
101
- | Layers 51~63 (후기) | 70% | 도메인 지식 채택 |
102
-
103
  ## 라이선스
104
 
105
  Apache 2.0 (부모 모델 라이선스 계승)
106
 
107
- ## 인용
108
-
109
- ```bibtex
110
- @misc{awaxis_hybrid_28b_2026,
111
- title={AWAXIS-Hybrid-28B: AWAXIS-Think × Darwin Platform Korean LLM},
112
- author={Anserwise · ginigen-ai · VIDraft team},
113
- year={2026},
114
- publisher={Hugging Face},
115
- url={https://huggingface.co/Anserwise/AWAXIS-Hybrid-28B}
116
- }
117
- ```
118
-
119
  ---
120
- *Anserwise · 2026-04-30*
 
10
  - FINAL-Bench/Darwin-28B-KR
11
  tags:
12
  - korean
 
13
  - darwin
14
  - darwin-platform
 
 
15
  - merge
16
  ---
17
 
18
  # AWAXIS-Hybrid-28B
19
 
20
+ > AWAXIS-Think × Darwin Platform Hybrid 모델
21
 
22
+ AWAXIS-Think-28B 기반으로 Darwin Platform 한국어 가중치를 Smart MRI Layer-wise 머지 결합한 한국어 LLM입니다.
23
 
24
+ 모델은 **Anserwise**에서 제작·공개한 한국어 LLM입니다.
25
 
26
+ - **🧬 아버지**: [`Anserwise/AWAXIS-Think-28B`](https://huggingface.co/Anserwise/AWAXIS-Think-28B)
27
+ - **🧬 어머니**: [`FINAL-Bench/Darwin-28B-KR`](https://huggingface.co/FINAL-Bench/Darwin-28B-KR)
 
 
 
 
 
 
28
 
29
  ---
30
 
31
  ## 📊 평가 결과
32
 
33
+ ### 1) K-AI 리더보드 기준 (5과목)
34
 
35
  KMMLU-Pro / CLIcK / HLE(Ko) / MuSR(Ko) / Com2-main(ko)
 
 
36
 
37
+ - **외부 모델**: K-AI 리더보드(leaderboard.aihub.or.kr) 실측값
38
+ - **본 시리즈**: 자체 mirror eval(100문항) × Rogue-28B-MIX 기준 ratio 환산 추정값
 
 
 
 
 
39
 
40
+ | Model | KMMLU-Pro | CLIcK | HLE(Ko) | MuSR(Ko) | Com2-main(ko) | **Sum** | **Macro** |
41
+ |-------|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
42
+ | Hybrid (예상) | 0.674 | 0.787 | 0.07 | 0.611 | 0.657 | **2.799** | **0.560** |
43
+ | **AWAXIS-Hybrid-28B** ⭐ (이 모델, 예상) | 0.674 | 0.787 | 0.07 | 0.611 | 0.657 | **2.799** | **0.560** |
44
+ | Rogue-28B-MIX (실측) | 0.666 | 0.797 | 0.07 | 0.611 | 0.650 | **2.794** | **0.559** |
45
+ | Warecube-KO-27B-v3 (실측) | 0.668 | 0.799 | 0.07 | 0.584 | 0.638 | **2.756** | **0.551** |
46
+ | AWAXIS-Think-28B (실측) | 0.603 | 0.770 | 0.06 | 0.591 | 0.632 | **2.651** | **0.530** |
47
+ | KR-Pro (예상) | 0.643 | 0.661 | 0.07 | 0.585 | 0.650 | **2.609** | **0.522** |
48
+ | KR-Plus (예상) | 0.643 | 0.703 | 0.07 | 0.532 | 0.657 | **2.605** | **0.521** |
49
 
50
+
51
+ > HLE(Ko)는 28B급 공통 약점 (난이도 매우 높음).
52
+
53
+ ### 2) 종합 한국어 능력 (10과목 mirror eval)
54
 
55
  CLIcK + KMMLU(history/law/health) + HAERAE(gk/hist/ling) + KOBEST(hella/copa/boolq)
56
 
57
+ | Model | CLIcK | KMMLU 평균 | HAERAE 평균 | KOBEST 평균 | **Sum (10과목)** | **Macro** |
58
  |-------|:---:|:---:|:---:|:---:|:---:|:---:|
59
+ | **AWAXIS-Hybrid-28B** ⭐ (이 모델) | 0.83 | 0.530 | 0.813 | 0.967 | **7.760** | **0.7760** |
60
+ | Rogue-28B-MIX | 0.83 | 0.513 | 0.807 | 0.967 | **7.690** | **0.7690** |
61
 
 
62
 
63
  ---
64
 
 
81
  print(tokenizer.decode(outputs[0][inputs.shape[1]:], skip_special_tokens=True))
82
  ```
83
 
 
 
 
 
 
 
 
 
 
 
 
 
 
84
  ## 라이선스
85
 
86
  Apache 2.0 (부모 모델 라이선스 계승)
87
 
 
 
 
 
 
 
 
 
 
 
 
 
88
  ---
89
+ *2026-04-30*