자율형 AI 소프트웨어 엔지니어의 생산성 측정
Cognition은 Devin 세션을 자동으로 평가해 “인간이 같은 일을 했으면 몇 시간이 걸렸을지”를 추정하는 시스템을 만들었다. 토큰·코드량보다 인간이 절약한 엔지니어링 시간을 측정하려는 시도다.
핵심 요약
- 단순 토큰 사용량이나 코드 변경량 대신, human-equivalent productive engineering hours를 지표로 삼는다.
- 시스템은 먼저 각 Devin 세션이 유용한 결과를 냈는지 분류한 뒤, 그 결과를 사람이 다시 만들었을 때 걸렸을 시간을 추정한다.
- 데이터셋은 258개 세션 / 126명 사용자로 구성됐고, 평가셋 233개 세션에서 상관계수 r_log = 0.74를 기록했다.
- 유용한 작업 필터는 merged PR 여부와 비-PR 세션 classifier로 구성되며, 고객에 따라 전체 세션의 **약 1–20%**를 비생산적으로 걸러낸다.
- estimator는 사용자 요청, 세션 trace, PR 산출물, 코드베이스 맥락을 함께 본다.
무엇이 새로웠나
- 인간의 경로를 기준으로 본다. 에이전트가 우회·복구한 시간까지 그대로 credit하지 않는다.
- 사용자가 이미 말한 부분은 credit하지 않는다. Devin이 실제로 해결한 범위만 추정한다.
- 코드베이스 친숙도를 반영한다. 같은 일이라도 낯선 저장소에서는 더 오래 걸린다.
- 교차 직무 역량도 고려한다. 백엔드 엔지니어가 프런트엔드/데이터 작업까지 처리한 경우를 현실적으로 반영한다.
평가 결과
- held-out evaluation: 233 세션
- r_log = 0.74, r_log² = 0.54
- 선형 보정 후에도 인간 추정 총합은 모델 예측 총합의 약 1.4배였다.
- 단순한 lines-changed 회귀보다, session trace 전체를 읽는 estimator가 훨씬 낫다.
왜 중요한가
- AI 코딩을 “얼마나 많이 썼나”가 아니라 얼마나 인간 시간을 절약했나로 재정의한다.
- 엔지니어링 리더가 token spend와 실제 생산성의 차이를 보게 해준다.
- 자율형 코딩 에이전트를 production에서 계량하는 초기 사례로 볼 수 있다.
한계
- ground truth가 self-reported라 bias가 있을 수 있다.
- hours는 business value와 동일하지 않다.
- 품질/회귀 버그처럼 사후에 드러나는 손실은 완전히 잡지 못한다.