Nemotron-Personas-Korea — NVIDIA 한국어 대규모 페르소나 데이터셋

국내 최초의 대규모 한국어 페르소나 데이터셋. 단순한 가상 인물이 아니라 한국의 실제 인구 분포를 정밀하게 반영한 합성 페르소나 700만 개. NVIDIA Data Designer + PGM으로 제작.

Dataset Overview

규모: 100만 레코드 × 7 페르소나 = 700만 페르소나
볼륨: ~17억 토큰 (1억 토큰이 페르소나 특화), 2.0GB
라이선스: CC BY 4.0
제작 도구: NeMo Data Designer (Probabilistic Graphical Model + google/gemma-4-31B-it)
목적: Sovereign AI 개발 — 문화적/인구통계적으로 정확한 합성 데이터로 바이어스 완화, 응답 다양성 향상

Data Sources (공식 통계 기반)

KOSIS — 한국 통계정보서비스 (인구통계)
Supreme Court of Korea — 성씨/출생연도
NHIS — 국민건강보험공단
KREI — 한국농촌경제研究院
NAVER Cloud — 시드 데이터 및 도메인 전문성

Schema — 26 Fields

7 Persona Types

Professional, sports, arts, travel, culinary, family, concise

12 Demographic/Geographic Fields

17개 시·도, 252개 시·군·구
문화 배경, 스킬/전문성, 커리어 목표, 취미 등 속성

Constraints

성인만 (만 19세 이상, 한국 법률 준수)
성별: 생물학적 성별만 포함 (공식 통계 제한)
금융/의료 특화 페르소나 제외

Key Demographic Insights

Names and Identity

209,167개 고유 성명 조합 (118개 성씨, 21,400개 이름)
상위 5개 성씨 (김·이·박·정·최) → 인구의 54%
세대별命名 트렌드 반영 (영숙 어르신 ~ 지훈 젊은 세대)

Age and Household Structure

“항아리형” 인구 분포 — 저출산 + 급속 고령화
50–64세가 최대 세그먼트
평균 초혼 연령 31–33세 (晚婚 트렌드) -Life-cycle: 핵가족 → 공실 자녀 → 1인 가구 (20대초/75세 이후 피크)

Education and Occupation

20–34세 75% 고등교육 학위 소지
80세 이상 73% 초등학교 이하 학력
학력 집중도: 세종(49.0%), 서울(45.1%)
서비스/지식 기반 경제 (전문가, 사무직 중심)

세계 최대规模的 PGM

62개 인구통계 항목을 결합한 세계 최대 규모의 페르소나 확률 그래프 모델(PGM) 사용. 이로 인해:

한 사람 한 사람의 수많은 데이터를 가지고 있어서, 말 그대로 실제 한국 사회의 모습을 그대로 담아냄

AI Industry Implications

이 데이터셋이 열리는 의미:

모델 응답 다양성 향상 — 7가지 페르소나 타입 × 62개 인구통계 조합
데이터 부족 문제 해결 —合成 데이터로 학습 데이터 보완
현실적·공감 가는 AI — 한국의 실제 사회 구조를 반영한 페르소나
Sovereign AI 기반 — 해외 모델 의존도 줄이고 국내 문화에 최적화된 AI 개발

Usage

from datasets import load_dataset
 
nemotron_personas = load_dataset("nvidia/Nemotron-Personas-Korea")

Sources

Nemotron-Personas-Korea — Hugging Face

LLM Wiki

탐색기

Nemotron-Personas-Korea — NVIDIA 한국어 대규모 페르소나 데이터셋

Nemotron-Personas-Korea — NVIDIA 한국어 대규모 페르소나 데이터셋

Dataset Overview

Data Sources (공식 통계 기반)

Schema — 26 Fields

7 Persona Types

12 Demographic/Geographic Fields

Constraints

Key Demographic Insights

Names and Identity

Age and Household Structure

Education and Occupation

세계 최대规模的 PGM

AI Industry Implications

Usage

Sources

그래프 뷰

목차

백링크