Qwen Meetup - Function Calling Harness (6.75% to 100%)

Wrtn Technologies의 정호 남(Nam Jeongho)이 Qwen Meetup Korea에서 발표한 Function Calling 하네스 엔지니어링. qwen3-coder-next의 6.75% 성공률을 100% 컴파일 성공으로 만든 과정.

Key Points

  • AutoBe — 자연어 대화에서 프로덕션급 백엔드를 자동 생성하는 AI 에이전트
  • Typia — 단일 타입 정의로 스키마, 파서, 밸리데이터, 피드백 생성기를 자동화
  • Function Calling: 타입이 모호성을 제거, 스키마가 부재를 통해 제약
  • 작은 모델이 시스템 취약점을 드러내는 데 더 유리 (좋은 QA 엔지니어)
  • 6.75%는 실패가 아니라 루프의 첫 번째 입력

AutoBe

  • 4가지 AST 타입 + 4단계 컴파일러 검증 + 자가 치유 루프
  • 스키마 사양이 새로운 프롬프트

Typia

  • 관대한 JSON 파싱 + 스키마 기반 타입 강제 변환 + 정밀한 검증 피드백
  • AutoBe와 결합하여 하네스 엔지니어링 완성

Function Calling에 대한 통찰

  • 타입은 모호성을 제거하고, 스키마는 부재(없는 것)를 통해 제약
  • 모델 중립적, 기계적 검증 가능, 결정론적 수렴
  • 벨리데이터가 있는 모든 엔지니어링 도메인에 적용 가능 (반도체, 화학 프로세스, 제어 시스템 등)

배경

  • GPT-4o도 중첩 툴 호출 시퀀스에서 28% 정확도 (NESTFUL, EMNLP 2025)
  • JSONSchemaBench (ICLR 2025): 복잡한 스키마에서 3-41% 커버리지
  • BoundaryML: 구조화된 출력이 모델 추론을 저하시킬 수 있다고 주장
  • 그러나 검증 가능한 피드백 루프를 위해서는 구조화된 출력이 필수

Sources