생산성을 위해 AI 에이전트를 풀어놨더니 토큰 청구서가 공포물이 됐다

생산성을 위해 AI 에이전트를 풀어놨더니 토큰 청구서가 공포물이 됐다

예전의 나는 거대한 토큰 청구서를 보면 AI 스택이 분명 엄청난 일을 하고 있다고 생각했다. 호출이 많고, 추론이 많고, 자동화가 많고, 가치도 많다. 그런 환상이었다. 현실은 더 추하다. 많은 에이전트 세팅에서 폭증하는 토큰 사용량은 지능의 증거가 아니다. 시스템이 루프를 돌고, 재시도하고, 자기 자신을 의심하고, 컨텍스트를 다시 불러오고, 뒤에서 조용히 돈을 태우고 있다는 증거다. 그런데도 사람들은 대시보드를 보며 그걸 진보라고 믿고 싶어 한다.

더 썩은 느낌이 드는 건 지금 일부 팀이 그 상태를 말하는 방식이다. 더 큰 토큰 실행. 더 큰 컨텍스트 윈도우. 더 큰 에이전트 추적 로그. 더 큰 사내 랭킹. 더 큰 예산. 하지만 원래 단순했어야 할 일을 끝내기 위해 한 에이전트가 도구 호출의 미로, 재시도, 검증기, 자기반성 루프를 필요로 한다면, 그건 생산성이 아니다. 그건 포장만 좋아진 낭비다.

사람들이 진짜로 떠올려야 할 장면

내가 계속 떠올리는 장면은 이렇다.

누군가 에이전트에게 아주 작은 일처럼 들리는 작업을 던진다.

  • 문서 요약
  • 보고서 검토
  • 시트에서 인사이트 뽑기
  • 파일 묶음 정리

겉으로 보면 단순하다.

그런데 내부에서는 완전히 폭주한다.

작업을 다시 쓴다.

작업을 하위 과제로 쪼갠다.

도구를 고른다.

모델을 호출한다.

결과를 검증한다.

결과를 의심한다.

결과를 다시 시도한다.

흐름을 다시 짠다.

컨텍스트를 다시 불러온다.

다른 모델을 또 호출한다.

그리고 사용자는 답 하나를 받고, 재무팀은 도무지 이해가 안 되는 청구서를 받는다.

여기서 벌어지는 진짜 사건은 그거다. 추상적으로 “AI는 비싸다”가 아니다. 단순한 작업 하나가 보이지 않는 토큰 용광로로 변하는 것이다.

토큰을 태우는 건 결과를 만들어내는 것과 다르다

이건 당연해야 하는데, 너무 많은 팀이 이미 그렇지 않은 것처럼 행동하고 있다.

토큰 사용량은 이런 게 아니다.

  • 비즈니스 가치
  • 품질
  • 명확성
  • 투자 대비 수익
  • 쓸모 있는 결과물

그건 그냥 지출이다.

그리고 팀이 지출 자체를 감탄하기 시작하는 순간, 인센티브는 아주 빠르게 썩는다.

“시스템이 문제를 깔끔하게 해결했는가?”를 묻는 대신, 거기 도달하는 동안 얼마나 많은 계산을 씹어먹었는지를 감탄하게 된다.

생산성을 신경 쓴다고 말하는 사람에게는 완전히 미친 행동이다.

토큰 그래프가 올라간다는 건 보통 뭔가 잘못됐다는 뜻이다

이게 내가 바꿔야 했던 사고방식이다.

나는 더 이상 높은 토큰 총량을 보고 시스템이 더 똑똑해졌다고 생각하지 않는다. 시스템 어딘가가 허술하다고 먼저 본다.

많은 에이전트 스택에서 추가 토큰 사용은 그냥 불확실성의 비용이기 때문이다.

  • 약한 계획
  • 불안정한 오케스트레이션
  • 나쁜 도구 통합
  • 과한 자기점검 루프
  • 끊임없는 재시도
  • 과한 컨텍스트 재로딩

그건 지능이 아니다.

그건 보정이다.

모델이나 작업 흐름이 깔끔하지 못해서, 시스템이 혼란을 더 많은 호출로 때우는 것이다.

생산성 서사는 질문 하나로 무너진다

이 모든 토큰 사용이 정말 생산성을 사는 거라면, 당연한 질문은 이것이다.

결과물이 어디 있나?

보여 달라.

  • 절약된 시간
  • 성공한 작업 하나당 비용
  • 줄어든 인간 노동
  • 재시도와 롤백 이후의 실제 이득
  • 대규모에서의 진짜 수익성

대개 마법이 방 안에서 빠져나가기 시작하는 지점이 여기다.

데모에서는 인상적이던 작업 흐름도 실제 트래픽, 동시성, 에러 처리, 긴 컨텍스트가 한꺼번에 들어오면 말도 안 되게 비싸질 수 있기 때문이다.

그러면 갑자기 “똑똑한 자율 에이전트”는 기업용 언어로 포장된 슬롯머신처럼 보이기 시작한다.

진짜 블랙홀은 종종 모델 주변 시스템이다

이건 여전히 사람들이 빙빙 돌려 말하는 부분이기도 하다.

많은 지출은 기본 모델 호출 하나에서 오지 않는다. 모델 주변에 쌓아 올린 구조에서 온다.

  • 플래너
  • 라우터
  • 검증기
  • 반성 루프
  • 폴백 체인
  • 도구 선택기
  • 복구 로직
  • 컨텍스트 재로딩

각 층만 따로 보면 그럴듯하다.

하지만 쌓아 올리면, 가치를 늘리는 속도보다 비용을 훨씬 빠르게 불리는 기계가 된다.

그래서 어떤 에이전트는 제품 데모에서는 놀랍게 보이다가도, 싸게 반복 تشغيل하려는 순간 저주받은 것처럼 느껴진다.

다음 진짜 분기점은 토큰 절제력이다

내가 보기엔 AI의 다음 진짜 분기점은 아주 단순할 것이다.

가장 큰 토큰 화형식을 감당할 수 있는 팀이 이기는 게 아니다.

더 적은 단계, 더 적은 재시도, 더 깨끗한 컨텍스트, 더 촘촘한 계획, 더 적은 오케스트레이션 진흙으로 정답을 내는 팀이 이길 것이다.

내가 진짜로 신뢰하는 AI는 이런 쪽이다.

  • 더 적은 호출
  • 더 적은 롤백
  • 더 적은 드라마
  • 쓴 토큰당 더 많은 유용한 결과

평범한 답 하나를 겨우 끌고 오기 위해 끝없는 추론 사슬이 필요한 시스템은 고도화된 게 아니다. 아주 비싼 의상을 입은 비효율일 뿐이다.

마지막 생각

AI 세계는 계산 과잉을 진보로 착각하는 멍청한 습관으로 흘러가고 있다.

하지만 어떤 에이전트가 평범한 작업 흐름 하나를 끝내기 위해 산더미 같은 토큰, 숨겨진 재시도, 우스꽝스러운 호출 그래프를 필요로 한다면, 거기서 얻어야 할 교훈은 더 큰 토큰 총량을 축하하자는 게 아니다.

진짜 교훈은 시스템에 아직 절제력이 없다는 것이다.

그리고 장기적으로 중요한 건 바로 그 절제력이다.

누가 가장 많이 태웠는지가 아니다.

누가 가장 바빠 보였는지가 아니다.

누가 가장 큰 대시보드 스크린샷을 올렸는지도 아니다.

이기는 팀은 AI를 지루할 정도로 효율적으로 만드는 팀이다. 빠르고, 깔끔하고, 측정 가능하고, 청구서를 낼 만한 가치가 있는 방식으로.