Qwen Meetup - Function Calling Harness (6.75% to 100%)
Wrtn Technologies의 정호 남(Nam Jeongho)이 Qwen Meetup Korea에서 발표한 Function Calling 하네스 엔지니어링. qwen3-coder-next의 6.75% 성공률을 100% 컴파일 성공으로 만든 과정.
Key Points
- AutoBe — 자연어 대화에서 프로덕션급 백엔드를 자동 생성하는 AI 에이전트
- Typia — 단일 타입 정의로 스키마, 파서, 밸리데이터, 피드백 생성기를 자동화
- Function Calling: 타입이 모호성을 제거, 스키마가 부재를 통해 제약
- 작은 모델이 시스템 취약점을 드러내는 데 더 유리 (좋은 QA 엔지니어)
- 6.75%는 실패가 아니라 루프의 첫 번째 입력
AutoBe
- 4가지 AST 타입 + 4단계 컴파일러 검증 + 자가 치유 루프
- 스키마 사양이 새로운 프롬프트
Typia
- 관대한 JSON 파싱 + 스키마 기반 타입 강제 변환 + 정밀한 검증 피드백
- AutoBe와 결합하여 하네스 엔지니어링 완성
Function Calling에 대한 통찰
- 타입은 모호성을 제거하고, 스키마는 부재(없는 것)를 통해 제약
- 모델 중립적, 기계적 검증 가능, 결정론적 수렴
- 벨리데이터가 있는 모든 엔지니어링 도메인에 적용 가능 (반도체, 화학 프로세스, 제어 시스템 등)
배경
- GPT-4o도 중첩 툴 호출 시퀀스에서 28% 정확도 (NESTFUL, EMNLP 2025)
- JSONSchemaBench (ICLR 2025): 복잡한 스키마에서 3-41% 커버리지
- BoundaryML: 구조화된 출력이 모델 추론을 저하시킬 수 있다고 주장
- 그러나 검증 가능한 피드백 루프를 위해서는 구조화된 출력이 필수
Sources
- Article: dev.to/samchon
- AutoBe: github.com/wrtnlabs/autobe
- Typia: github.com/samchon/typia
- Slides: Download PPTX