
# โญ DATUMO
### *The Data-centric AI Company*
**Built by [Selectstar](https://selectstar.ai/) โ data infrastructure for trustworthy AI**
[](https://selectstar.ai/)
[](https://selectstar.ai/blog/)
[](https://kr.linkedin.com/company/datumo-usa)
[](https://selectstar.ai/contact_page/)
## ๐ About Us
We're **Selectstar** โ a Korean AI company building the **data foundation for trustworthy AI**.
Since 2018, we've partnered with AI teams across the entire data value-chain: from dataset design and construction to **LLM reliability evaluation and red-teaming**.
Our flagship **Datumo Platform** is Korea's first end-to-end AI trust evaluation solution, unifying dataset preparation, automated evaluation, red-teaming, and improvement analytics in a single pipeline.
> ๐ฐ๐ท **์๋
ํ์ธ์, ์
๋ ํธ์คํ์
๋๋ค.**
> ๋ฐ์ดํฐ ์ค๊ณยท๊ตฌ์ถ๋ถํฐ LLM ์ ๋ขฐ์ฑ ๊ฒ์ฆ๊น์ง, AI ๊ฐ๋ฐ์ ๋ชจ๋ ๋จ๊ณ๋ฅผ ํจ๊ปํ๋ **Data-centric AI ๊ธฐ์
**์
๋๋ค.
> ์ด ํ์ด์ง์์๋ ์ ํฌ๊ฐ ์ฐ๊ตฌยท์ค๋ฌด์ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ์
๊ณผ ๋ชจ๋ธ์ ์คํ์์ค๋ก ๊ณต์ ํ๊ณ ์์ด์.
---
## ๐ฏ What We Do
Perception AI(2018~) โ Generative AI(2022~) โ **Agentic AI(2026~)** ๋ก ์ด์ด์ง๋ AI ์งํ ์ ๋จ๊ณ์ ๊ฑธ์ณ, ๋ฐ์ดํฐ ๊ตฌ์ถ๋ถํฐ ์ ๋ขฐ์ฑ ๊ฒ์ฆ๊น์ง **End-to-End ํ์ดํ๋ผ์ธ**์ ์ ๊ณตํฉ๋๋ค.
| ๐๏ธ Data Construction | ๐ก๏ธ AI Trust & Safety | ๐ Datumo Platform |
|---|---|---|
| ๊ณ ๋๋ ์ถ๋ก ๋ฐ์ดํฐ ์์ฑ (CAC-CoT, GRADE, ATA, COBA) | LLM ๋ ๋ํฐ๋ฐ (CAGE, STAR-Teaming) | ๊ตญ๋ด ์ต์ด LLM ์ ๋ขฐ์ฑ ์๋ํ ํ๊ฐ ํ๋ซํผ |
| ์ฌ์ ํ์ตยทํ์ธํ๋ ๋ฐ์ดํฐ ๋ผ์ด์ ์ฑ | ํ๊ตญ์ด Safety ๋ฒค์น๋งํฌ (KorNAT, KorSET, FinRED) | **ํ๊ฐ ๊ธฐ๊ฐ 45์ผ โ 45๋ถ** |
| RAG ์ง์ ํ์ดํ๋ผ์ธ | Safety Judge (Datumo-Guard) | ์จํ๋ ๋ฏธ์คยท๋ง๋ถ๋ฆฌ ํ๊ฒฝ ์ง์ |
| 25๋ง ๋ช
+ ํฌ๋ผ์ฐ๋์์ปค ยท 2์ต ๊ฑด+ ์ด๋
ธํ
์ด์
| ๊ธ์ตยท์๋ฃยท๊ณต๊ณต ๋๋ฉ์ธ ํนํ ํ๊ฐ | Dashboard Analytics & Reporting |
> ๐ค **์ฃผ์ ํํธ๋์ญ**: SKT ๋
์ AI ํ์ด๋ฐ์ด์
๋ชจ๋ธ(๋
ํ๋ชจ) ์ปจ์์์ ยท GSMA Open Telco AI ยท ์ผ์ฑ์๋ช
C-Lab Outside ยท ๊ธ์ต๋ณด์์ ยท ์์ฝ์ฒ ์๋ฃ ๋ ๋ํ
---
## ๐ Featured Collections
### ๐ก๏ธ [Safety-Data](https://huggingface.co/collections/datumo/safety-data)
Curated by our **AI Safety team** โ Korean-language safety and reliability benchmarks for LLM evaluation.
| Dataset | Description | Venue |
|---|---|---|
| ๐ธ **FinRED** | ๊ธ์ต ๋๋ฉ์ธ LLM **๋ ๋ํฐ๋ฐ(Red-Teaming)** ํ๊ฐ ๋ฒค์น๋งํฌ (๊ธ์ต๋ณด์์ AIํ์ ์ค ๊ณต๋ ๊ตฌ์ถ) | KDD 2026 D&B Track |
| ๐ธ [**KorSET**](https://huggingface.co/datasets/datumo/KorSET) | CAGE ํ๋ ์์ํฌ๋ก ๊ตฌ์ถํ ํ๊ตญ์ด ๋ ๋ํฐ๋ฐ ๋ฒค์น๋งํฌ (5๊ฐ ์ํ ๋๋ฉ์ธ ยท 12๊ฐ ์นดํ
๊ณ ๋ฆฌ ยท 53๊ฐ ์ธ๋ถ ์ ํ ยท ~8,000๊ฑด) | **ICLR 2026** (CAGE) |
| ๐ธ [**KorNAT**](https://huggingface.co/datasets/datumo/KorNAT) | Korea's first LLM reliability / national-alignment benchmark | ACL 2024 Findings |
### ๐ฆ [Data-Data](https://huggingface.co/collections/datumo/data-data)
Research outputs from our **Data team** โ models and datasets built in-house.
| Resource | Description | Type |
|---|---|---|
| ๐ธ [**CAC-CoT dataset**](https://huggingface.co/datasets/datumo/CAC-CoT) | Accompanying training data for CAC-CoT | Dataset |
---
## ๐ Milestones
**Highlight (์ต๊ทผ ์ฃผ์ ์ฑ๊ณผ)**
- ๐
**Forbes "30 Under 30 Asia" 2021** โ Enterprise Technology (๊ณต๋์ฐฝ์
์ 4์ธ ์ ์ )
- ๐
**Forbes Korea "2025 ๋ํ๋ฏผ๊ตญ AI 50"** ์ ์
- ๐
**Forbes Asia "100 ์ ๋ง ๊ธฐ์
" 2025** ์ ์
- ๐ฐ๐ท **๋
์ AI ํ์ด๋ฐ์ด์
๋ชจ๋ธ(๋
ํ๋ชจ)** 1์ฐจ ํต๊ณผ (2026.01, SKT ์ปจ์์์ ๋ฐ์ดํฐ ์ด๊ด)
- ๐ **GSMA Open Telco AI** ๊ณต์ ํํธ๋ ํฉ๋ฅ (2026.03, MWC Barcelona)
- ๐ฐ ๋์ ํฌ์ **434์ต์ ๋ํ** (2025.12, Series B ํ์ฅ)
- ๐ ๋์ ์ด๋
ธํ
์ด์
**2์ต ๊ฑด+** ยท ๊ธฐ์
๊ณ ๊ฐ **287๊ฐ+** ยท ํฌ๋ผ์ฐ๋์์ปค **25๋ง ๋ช
+**
๐ ์ ์ฒด ์ฐํ ๋ณด๊ธฐ (2018โ2026)
### ๐ฑ Founding & Early Traction (2018โ2020)
| ์ฐ์ | ๋ด์ฉ |
|---|---|
| 2018.11 | ์
๋ ํธ์คํ(์ฃผ) ์ค๋ฆฝ |
| 2018.12 | KAIST ์ฐฝ์
๋ํ(E*5) ์ต์ฐ์์ |
| 2019.07 | ์นด์นด์ค๋ฒค์ฒ์ค SEED 4์ต ํฌ์ ์ ์น |
| 2019.09 | KorQuAD 2.0 Dataset ๊ตฌ์ถ (LG CNS ๊ณต๋) |
| 2019.10 | TIPS ํ๋ก๊ทธ๋จ ์ ์ |
| 2019.12 | ๊ธฐ์
๋ถ์ค์ฐ๊ตฌ์ ์ค๋ฆฝ ์ธ์ |
| 2020.09 | Series A 40์ต ํฌ์ ์ ์น (์นด์นด์ค๋ฒค์ฒ์คยท์ฝ์ค๋กฑ์ธ๋ฒ ์คํธ๋จผํธยท์ปดํผ๋์ผ์ดํํธ๋์ค) |
| 2020.10 | **SideGuide** (IROS 2020) ๋
ผ๋ฌธ ์ฑ๊ณผ โ Large-scale Sidewalk Dataset |
| 2020.11 | ๋ฐ์ดํฐ์คํ์ฆ ์ต์ฐ์์ (๊ณผํ๊ธฐ์ ์ ๋ณดํต์ ๋ถ์ฅ๊ด์) |
### ๐ Scale-Up & Global Recognition (2021โ2022)
| ์ฐ์ | ๋ด์ฉ |
|---|---|
| 2021.01 | Samsung C-Lab Outside ์ ์ |
| **2021.04** | ๐
**Forbes "30 Under 30 Asia"** Enterprise Technology ์ ์ (๊ณต๋์ฐฝ์
์ 4์ธ) |
| 2021.11 | **KLUE** NeurIPS 2021 Datasets & Benchmarks ๋
ผ๋ฌธ ์ฑ๊ณผ |
| 2022.01 | CES 2022 ์ฐธ์ฌ (Samsung C-Lab) |
| 2022.02 | ์ 1๊ธฐ ์ธ๊ณต์ง๋ฅ ์ค๋ฆฌ ์ ์ฑ
ํฌ๋ผ ๊ธฐ์ ๋ถ๊ณผ ์์ ์ ์ |
| 2022.03 | **Instance-wise Occlusion and Depth Orders** CVPR 2022 ๋
ผ๋ฌธ ์ฑ๊ณผ |
| 2022.07 | Series A Extension 90์ต ํฌ์ ์ ์น |
| 2022.07 | ๊ธฐ์ ํ์ ํ ์ค์๊ธฐ์
(inno-Biz) ์ธ์ฆ |
| 2022.11 | **KOLD** (EMNLP 2022), **CochlScene** (APSIPA 2022), **Split-GCN** (TPAMI, 1์ ์) ๋
ผ๋ฌธ ์ฑ๊ณผ |
### ๐ง LLM Era & AI Safety (2023โ2024)
| ์ฐ์ | ๋ด์ฉ |
|---|---|
| 2023.05 | Series A Extension 40์ต ํฌ์ ์ ์น (์ฐ์
์ํ) |
| 2023.06 | AI ๊ธฐ๋ฐ ๊ตญ๋ฐฉ ํ์ ํฌ๋ผ ๋์ (์ก๊ตฐ์ฐธ๋ชจ์ด์ฅ์) |
| 2023.07 | "AI Talk with Andrew Ng" ํ์ฌ Keynote Speaker |
| 2023.10 | Samsung Developer Conference 2023 ์ฐ์ฌ ์ฐธ์ฌ |
| 2023.11 | ๋ํ๋ฏผ๊ตญ Digital Innovation Award ํน๋ณ์ |
| 2023.12 | **Analyzing Norm Violations in Live-Stream Chat** EMNLP 2023 ๋
ผ๋ฌธ ์ฑ๊ณผ |
| 2023.12 | ๊ตญ๋ด ์ต์ด "์ด๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ ์ ๋ขฐ์ฑ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
" ๊ตฌ์ถ (NIA) |
| 2024.04 | **Gen AI Korea 2024: ์์ฑํ AI ๋ ๋ํ ์ฑ๋ฆฐ์ง** ์ปจํผ๋ฐ์ค ๊ธฐํยท์ด์ (๊ณผ๊ธฐ์ ํต๋ถ) |
| **2024.08** | **KorNAT** ACL 2024 Findings ๋
ผ๋ฌธ ์ฑ๊ณผ โ ๊ตญ๋ด AI ๋ฐ์ดํฐ ๊ธฐ์
์ต์ด ๊ธ๋ก๋ฒ Top AI ํํ ๋ฐ์ดํฐ์
1์ ์ ๋
ผ๋ฌธ |
| 2024.10 | KT 'Responsible AI ์๋ฌธ ์์ํ' ์๋ฌธ์ ์์ ์ ์ |
| 2024.11 | ์ 2ํ ์ธ๊ณต์ง๋ฅ ์ ๋ขฐ์ฑ ๋์ ์ฐ์์ (์ ๋ณดํต์ ์ ์ฑ
์ฐ๊ตฌ์ ์์ฅ์) |
| 2024.11 | GSMA AI Summit 2024 ์ฐ์ฌ ์ฐธ์ฌ |
| 2024.12 | ๊ตญ๋ด ์ต์ด **LLM ๋ฌดํด์ฑ ํ๊ฐ ๋ฐ์ดํฐ DQ(Data Quality) ์ธ์ฆ** ํ๋ (TTA) |
| 2024.12 | 2024 ์์์AI๋์ ๋ฒค์ฒ๊ธฐ์
ํํ ํ์ฅ์ |
### ๐ Agentic AI & Global Expansion (2025โ2026)
| ์ฐ์ | ๋ด์ฉ |
|---|---|
| 2025.02 | **Datumo Eval ์ถ์** โ ๊ตญ๋ด ์ต์ด LLM ์๋ํ ํ๊ฐ ํ๋ซํผ |
| 2025.03 | **Gen AI Red Team Challenge** ๊ณต๋ ๊ฐ์ต (MWC Barcelona, GSMA) โ ์ธ๊ณ ์ต์ด ์คํ๋ผ์ธ ๊ธ๋ก๋ฒ ๋ ๋ํ ์ฑ๋ฆฐ์ง |
| 2025.04 | AI ๊ธฐ๋ณธ๋ฒ ์์ ์ฑ ๊ฐ์ด๋๋ผ์ธ TF ์์ ์ ์ (๊ณผ๊ธฐ์ ํต๋ถยทAI์์ ์ฐ๊ตฌ์, ๊น์ธ์ฝ ๋ํ) |
| 2025.05 | ๐
**Forbes Korea "2025 ๋ํ๋ฏผ๊ตญ AI 50"** ์ ์ |
| 2025.06 | ์ผ์ฑ๊ธ์ต C-Lab Outside ์ต์ข
์ ์ (์ผ์ฑ์๋ช
๊ธ์ต AI ์ ๋ขฐ์ฑ ๊ฒ์ฆ ํ์
) |
| 2025.07 | ๋ฏผ๊ฐ AI ์ ๋ขฐ์ฑ ์ธ์ฆ 'AI-MASTER' ์ํ๊ธฐ๊ด ์ฐธ์ฌ (๊ตญ๋ด ์ต์ด ๋ฏผ๊ฐ ์ฃผ๋ ์ฒด๊ณ) |
| 2025.08 | **Series B 205์ต์ ํฌ์ ์ ์น** |
| 2025.08 | ๐
**Forbes Asia "100 ์ ๋ง ๊ธฐ์
2025"** ์ ์ |
| 2025.08 | **๋
์ AI ํ์ด๋ฐ์ด์
๋ชจ๋ธ(๋
ํ๋ชจ)** ์ ์ํ ์ ๋ฐ (SKT ์ปจ์์์ ๋ฐ์ดํฐ ์ด๊ด) |
| 2025.09 | **๊ตญ๊ฐ์ธ๊ณต์ง๋ฅ์ ๋ต์์ํ ๋ฐ์ดํฐ ๋ถ๊ณผ์์** ์์ด (๊น์ธ์ฝ ๋ํ) |
| 2025.09 | ์์ฝ์ฒ ์ฒจ๋จ AI ๋์งํธ ์๋ฃ์ ํ ๋ ๋ํ ์ฑ๋ฆฐ์ง ํ์ โ ์์์ ์ฒซ '์๋ฃ ๋ ๋ํ' |
| 2025.10 | ์ผ์ฑ๊ธ์ต C-Lab Outside **์ต์ฐ์ ์คํํธ์
** ์ ์ (์ผ์ฑ์๋ช
) |
| 2025.11 | **CAC-CoT ยท CoBA ยท GRADE** EMNLP 2025 ๋
ผ๋ฌธ 3ํธ ๋์ ๋ฑ์ฌ |
| 2025.11 | 2025 ์ด๋ฐ์ผ๋ฆฌ AI ์ฝ๋ฆฌ์ ๋์ (ํ๊ตญ์ธ๊ณต์ง๋ฅ์ฐ์
ํํ์ฅ์) |
| 2025.11 | Good AI Awards 2025 NIA ์์ฅ์ |
| 2025.12 | Series B 55์ต์ ์ถ๊ฐ ํฌ์ โ **๋์ ํฌ์ 434์ต์** ๋ํ |
| **2026.01** | ๐ฐ๐ท **๋
์ AI ํ์ด๋ฐ์ด์
๋ชจ๋ธ(๋
ํ๋ชจ) 1์ฐจ ํต๊ณผ** (SKT ์ปจ์์์) |
| 2026.02 | **CAGE** ICLR 2026 Main Conference ๋
ผ๋ฌธ ์ฑ๊ณผ |
| 2026.03 | **GSMA 'Open Telco AI'** ๊ธ๋ก๋ฒ ์ฐํฉ์ฒด ๊ณต์ ํํธ๋ ํฉ๋ฅ (MWC Barcelona) |
| 2026.03 | MWC 2026 Gen AI Red Team Challenge ๊ณต๋ ์ฃผ๊ด (GSMA ยท LG U+) |
---
## ๐ Publications
์
๋ ํธ์คํ๊ฐ ๋จ๋
ยท๊ณต๋ยท์ง์ ์ฐธ์ฌํ ๋
ผ๋ฌธ ๋ชฉ๋ก์
๋๋ค. ๊ตญ์ AIยทML Top ํํ ์ค์ฌ์ผ๋ก ์ ๋ฆฌํ์ต๋๋ค.
๐ฅ 2026 (5ํธ)
| Paper | Co-authors | Venue |
|---|---|---|
| **STAR-Teaming**: A Strategy-Response Multiplex Network Approach to Automated LLM Red Teaming | Selectstar | ACL 2026 |
| **FinRED**: An Expert-Guided Red-Teaming Benchmark for Financial LLM Safety | Selectstar ยท ๊ธ์ต๋ณด์์ AIํ์ ์ค | KDD 2026 Dataset & Benchmark Track |
| [**CAGE**](https://openreview.net/forum?id=gCm55KYiqz): A Framework for Culturally Adaptive Red-Teaming Benchmark Generation | Selectstar | **ICLR 2026** Main |
| **E-star-12B**: Rubric-Following Evaluator Adaptive Across Industrial Domains | Selectstar | ACL 2026 Workshop (์งํ ์ค) |
| **ATA**: Autonomous Tabular-data Analysis for Insight Generation via Statistical Methods | Selectstar ยท ์ผ์ฑ์ฆ๊ถ ๊ธ์ตAI์ผํฐ | ARR ์ ์ถ |
๐ 2025 (3ํธ)
| Paper | Co-authors | Venue |
|---|---|---|
| [**CoBA**](https://aclanthology.org/2025.emnlp-main.520/): Counterbias Text Augmentation for Mitigating Various Spurious Correlations via Semantic Triples | Selectstar ยท ์ค์๋ํ๊ต | EMNLP 2025 Main |
| [**GRADE**](https://aclanthology.org/2025.findings-emnlp.236/): Generating multi-hop QA and fine-gRAined Difficulty matrix for RAG Evaluation | Selectstar ยท KAIST | EMNLP 2025 Findings |
| [**CAC-CoT**](https://aclanthology.org/2025.findings-emnlp.1062/): Connector-Aware Compact Chain-of-Thought for Efficient Reasoning Data Synthesis Across Dual-System Cognitive Tasks | Selectstar | EMNLP 2025 Findings |
๐ 2024 (1ํธ)
| Paper | Co-authors | Venue |
|---|---|---|
| [**KorNAT**](https://arxiv.org/abs/2402.13605): LLM Alignment Benchmark for Korean Social Values and Common Knowledge | Selectstar ยท KAIST ยท SKT ยท LG ยท ๋ค์ด๋ฒ ยท KT ยท NIA | ACL 2024 Findings |
> ๊ตญ๋ด AI ๋ฐ์ดํฐ ๊ธฐ์
์ต์ด ๊ธ๋ก๋ฒ Top AI ํํ์ ๋ฐ์ดํฐ์
์ฃผ์ 1์ ์ ๋
ผ๋ฌธ ๋ฑ์ฌ
๐ 2021โ2023 (5ํธ)
| Year | Paper | Venue |
|---|---|---|
| 2023 | [**Analyzing Norm Violations in Live-Stream Chat**](https://aclanthology.org/2023.emnlp-main.55/) | EMNLP 2023 |
| 2022 | [**KOLD**](https://aclanthology.org/2022.emnlp-main.744/): Korean Offensive Language Dataset | EMNLP 2022 |
| 2022 | [**Split-GCN**](https://ieeexplore.ieee.org/document/9984937): Effective Interactive Annotation for Segmentation of Disconnected Instance | IEEE TPAMI (1์ ์) |
| 2022 | [**Instance-wise Occlusion and Depth Orders**](https://openaccess.thecvf.com/content/CVPR2022/html/Lee_Instance-Wise_Occlusion_and_Depth_Orders_in_Natural_Scenes_CVPR_2022_paper.html) | CVPR 2022 |
| 2022 | [**CochlScene**](https://ieeexplore.ieee.org/document/9979822): Acquisition of acoustic scene data using crowdsourcing | APSIPA 2022 |
| 2021 | [**KLUE**](https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/hash/98dce83da57b0395e163467c9dae521b-Abstract-round2.html): Korean Language Understanding Evaluation | NeurIPS 2021 Datasets & Benchmarks |
| 2020 | [**SideGuide**](https://ieeexplore.ieee.org/document/9340734): A Large-scale Sidewalk Dataset for Guiding Impaired People | IROS 2020 |
> ์ ์ฒด ๋
ผ๋ฌธ ๋ชฉ๋ก ๋ฐ ์์ธ ๋ด์ฉ์ [๋ธ๋ก๊ทธ](https://selectstar.ai/blog/) ๋๋ [๋ฌธ์ํ๊ธฐ](https://selectstar.ai/contact_page/)๋ฅผ ํตํด ํ์ธํ์ค ์ ์์ต๋๋ค.
---
## ๐ค Connect
| | |
|---|---|
| ๐ Website | [selectstar.ai](https://selectstar.ai/) |
| ๐ฐ Blog | [selectstar.ai/blog](https://selectstar.ai/blog/) |
| ๐ผ Enterprise inquiries | [Contact form](https://selectstar.ai/contact_page/) |
| ๐ฌ Community | [Discussion tab](https://huggingface.co/spaces/datumo/README/discussions) |
| ๐ Updates | HuggingFace ํ๋ก์ฐ๋ก ์ ๋ฆด๋ฆฌ์ฆ ์๋ฆผ ๋ฐ๊ธฐ |
---
โญ Building the data foundation for trustworthy AI ยท Made with care in Seoul ๐ฐ๐ท