Nemotron-Personas-Korea — NVIDIA 한국어 대규모 페르소나 데이터셋
국내 최초의 대규모 한국어 페르소나 데이터셋. 단순한 가상 인물이 아니라 한국의 실제 인구 분포를 정밀하게 반영한 합성 페르소나 700만 개. NVIDIA Data Designer + PGM으로 제작.
Dataset Overview
- 규모: 100만 레코드 × 7 페르소나 = 700만 페르소나
- 볼륨: ~17억 토큰 (1억 토큰이 페르소나 특화), 2.0GB
- 라이선스: CC BY 4.0
- 제작 도구: NeMo Data Designer (Probabilistic Graphical Model +
google/gemma-4-31B-it) - 목적: Sovereign AI 개발 — 문화적/인구통계적으로 정확한 합성 데이터로 바이어스 완화, 응답 다양성 향상
Data Sources (공식 통계 기반)
- KOSIS — 한국 통계정보서비스 (인구통계)
- Supreme Court of Korea — 성씨/출생연도
- NHIS — 국민건강보험공단
- KREI — 한국농촌경제研究院
- NAVER Cloud — 시드 데이터 및 도메인 전문성
Schema — 26 Fields
7 Persona Types
Professional, sports, arts, travel, culinary, family, concise
12 Demographic/Geographic Fields
- 17개 시·도, 252개 시·군·구
- 문화 배경, 스킬/전문성, 커리어 목표, 취미 등 속성
Constraints
- 성인만 (만 19세 이상, 한국 법률 준수)
- 성별: 생물학적 성별만 포함 (공식 통계 제한)
- 금융/의료 특화 페르소나 제외
Key Demographic Insights
Names and Identity
- 209,167개 고유 성명 조합 (118개 성씨, 21,400개 이름)
- 상위 5개 성씨 (김·이·박·정·최) → 인구의 54%
- 세대별命名 트렌드 반영 (영숙 어르신 ~ 지훈 젊은 세대)
Age and Household Structure
- “항아리형” 인구 분포 — 저출산 + 급속 고령화
- 50–64세가 최대 세그먼트
- 평균 초혼 연령 31–33세 (晚婚 트렌드) -Life-cycle: 핵가족 → 공실 자녀 → 1인 가구 (20대초/75세 이후 피크)
Education and Occupation
- 20–34세 75% 고등교육 학위 소지
- 80세 이상 73% 초등학교 이하 학력
- 학력 집중도: 세종(49.0%), 서울(45.1%)
- 서비스/지식 기반 경제 (전문가, 사무직 중심)
세계 최대规模的 PGM
62개 인구통계 항목을 결합한 세계 최대 규모의 페르소나 확률 그래프 모델(PGM) 사용. 이로 인해:
한 사람 한 사람의 수많은 데이터를 가지고 있어서, 말 그대로 실제 한국 사회의 모습을 그대로 담아냄
AI Industry Implications
이 데이터셋이 열리는 의미:
- 모델 응답 다양성 향상 — 7가지 페르소나 타입 × 62개 인구통계 조합
- 데이터 부족 문제 해결 —合成 데이터로 학습 데이터 보완
- 현실적·공감 가는 AI — 한국의 실제 사회 구조를 반영한 페르소나
- Sovereign AI 기반 — 해외 모델 의존도 줄이고 국내 문화에 최적화된 AI 개발
Usage
from datasets import load_dataset
nemotron_personas = load_dataset("nvidia/Nemotron-Personas-Korea")