LLM Wiki

❯

❯

자율형 AI 소프트웨어 엔지니어의 생산성 측정

자율형 AI 소프트웨어 엔지니어의 생산성 측정

2026년 6월 07일4 min read

ai-coding
productivity
ai-agents
research

자율형 AI 소프트웨어 엔지니어의 생산성 측정

Cognition은 Devin 세션을 자동으로 평가해 “인간이 같은 일을 했으면 몇 시간이 걸렸을지”를 추정하는 시스템을 만들었다. 토큰·코드량보다 인간이 절약한 엔지니어링 시간을 측정하려는 시도다.

핵심 요약

단순 토큰 사용량이나 코드 변경량 대신, human-equivalent productive engineering hours를 지표로 삼는다.
시스템은 먼저 각 Devin 세션이 유용한 결과를 냈는지 분류한 뒤, 그 결과를 사람이 다시 만들었을 때 걸렸을 시간을 추정한다.
데이터셋은 258개 세션 / 126명 사용자로 구성됐고, 평가셋 233개 세션에서 상관계수 r_log = 0.74를 기록했다.
유용한 작업 필터는 merged PR 여부와 비-PR 세션 classifier로 구성되며, 고객에 따라 전체 세션의 **약 1–20%**를 비생산적으로 걸러낸다.
estimator는 사용자 요청, 세션 trace, PR 산출물, 코드베이스 맥락을 함께 본다.

무엇이 새로웠나

인간의 경로를 기준으로 본다. 에이전트가 우회·복구한 시간까지 그대로 credit하지 않는다.
사용자가 이미 말한 부분은 credit하지 않는다. Devin이 실제로 해결한 범위만 추정한다.
코드베이스 친숙도를 반영한다. 같은 일이라도 낯선 저장소에서는 더 오래 걸린다.
교차 직무 역량도 고려한다. 백엔드 엔지니어가 프런트엔드/데이터 작업까지 처리한 경우를 현실적으로 반영한다.

평가 결과

held-out evaluation: 233 세션
r_log = 0.74, r_log² = 0.54
선형 보정 후에도 인간 추정 총합은 모델 예측 총합의 약 1.4배였다.
단순한 lines-changed 회귀보다, session trace 전체를 읽는 estimator가 훨씬 낫다.

왜 중요한가

AI 코딩을 “얼마나 많이 썼나”가 아니라 얼마나 인간 시간을 절약했나로 재정의한다.
엔지니어링 리더가 token spend와 실제 생산성의 차이를 보게 해준다.
자율형 코딩 에이전트를 production에서 계량하는 초기 사례로 볼 수 있다.

한계

ground truth가 self-reported라 bias가 있을 수 있다.
hours는 business value와 동일하지 않다.
품질/회귀 버그처럼 사후에 드러나는 손실은 완전히 잡지 못한다.

관련 노트

moc-productivity
moc-ai-coding

그래프 뷰

자율형 AI 소프트웨어 엔지니어의 생산성 측정
핵심 요약
무엇이 새로웠나
평가 결과
왜 중요한가
한계
관련 노트

백링크

MOC - AI Coding
MOC - Productivity
index
Overview

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community