Nemotron-Personas-Korea — NVIDIA 한국어 대규모 페르소나 데이터셋

국내 최초의 대규모 한국어 페르소나 데이터셋. 단순한 가상 인물이 아니라 한국의 실제 인구 분포를 정밀하게 반영한 합성 페르소나 700만 개. NVIDIA Data Designer + PGM으로 제작.

Dataset Overview

  • 규모: 100만 레코드 × 7 페르소나 = 700만 페르소나
  • 볼륨: ~17억 토큰 (1억 토큰이 페르소나 특화), 2.0GB
  • 라이선스: CC BY 4.0
  • 제작 도구: NeMo Data Designer (Probabilistic Graphical Model + google/gemma-4-31B-it)
  • 목적: Sovereign AI 개발 — 문화적/인구통계적으로 정확한 합성 데이터로 바이어스 완화, 응답 다양성 향상

Data Sources (공식 통계 기반)

  • KOSIS — 한국 통계정보서비스 (인구통계)
  • Supreme Court of Korea — 성씨/출생연도
  • NHIS — 국민건강보험공단
  • KREI — 한국농촌경제研究院
  • NAVER Cloud — 시드 데이터 및 도메인 전문성

Schema — 26 Fields

7 Persona Types

Professional, sports, arts, travel, culinary, family, concise

12 Demographic/Geographic Fields

  • 17개 시·도, 252개 시·군·구
  • 문화 배경, 스킬/전문성, 커리어 목표, 취미 등 속성

Constraints

  • 성인만 (만 19세 이상, 한국 법률 준수)
  • 성별: 생물학적 성별만 포함 (공식 통계 제한)
  • 금융/의료 특화 페르소나 제외

Key Demographic Insights

Names and Identity

  • 209,167개 고유 성명 조합 (118개 성씨, 21,400개 이름)
  • 상위 5개 성씨 (김·이·박·정·최) → 인구의 54%
  • 세대별命名 트렌드 반영 (영숙 어르신 ~ 지훈 젊은 세대)

Age and Household Structure

  • “항아리형” 인구 분포 — 저출산 + 급속 고령화
  • 50–64세가 최대 세그먼트
  • 평균 초혼 연령 31–33세 (晚婚 트렌드) -Life-cycle: 핵가족 → 공실 자녀 → 1인 가구 (20대초/75세 이후 피크)

Education and Occupation

  • 20–34세 75% 고등교육 학위 소지
  • 80세 이상 73% 초등학교 이하 학력
  • 학력 집중도: 세종(49.0%), 서울(45.1%)
  • 서비스/지식 기반 경제 (전문가, 사무직 중심)

세계 최대规模的 PGM

62개 인구통계 항목을 결합한 세계 최대 규모의 페르소나 확률 그래프 모델(PGM) 사용. 이로 인해:

한 사람 한 사람의 수많은 데이터를 가지고 있어서, 말 그대로 실제 한국 사회의 모습을 그대로 담아냄

AI Industry Implications

이 데이터셋이 열리는 의미:

  1. 모델 응답 다양성 향상 — 7가지 페르소나 타입 × 62개 인구통계 조합
  2. 데이터 부족 문제 해결 —合成 데이터로 학습 데이터 보완
  3. 현실적·공감 가는 AI — 한국의 실제 사회 구조를 반영한 페르소나
  4. Sovereign AI 기반 — 해외 모델 의존도 줄이고 국내 문화에 최적화된 AI 개발

Usage

from datasets import load_dataset
 
nemotron_personas = load_dataset("nvidia/Nemotron-Personas-Korea")

Sources