2026년 5월 마지막 날, AI 업계는 거대한 청구서와 새 모델 출시, 그리고 국제 협력 신호가 동시에 터져 나오는 하루를 보냈다. Anthropic의 Claude는 단일 고객 한 명의 사용량으로 월 5억 달러를 돌파하며 토큰 경제의 그늘을 드러냈고, 같은 회사가 Opus 4.8을 내놓으며 신뢰성과 비용 절감이라는 양면 전략을 강조했다. Microsoft는 중국식 증류 모델의 한계를 공개 비판했고, Google은 I/O 2026 직전 Gemini Omni와 3.5의 실전 데모 9종을 풀어 놓았다. 한국 정부도 G7 디지털 장관회의 무대에서 프랑스 Mistral과의 협력 카드를 꺼내며 글로벌 AI 외교에 가세했다.
Anthropic — 청구서 충격과 Opus 4.8
한 달 5억 달러, 토큰맥싱의 역습
Anthropic은 이번 주 한 클라이언트의 Claude 사용료가 단일 월간 기준 5억 달러를 돌파했다고 밝혔다. 해당 고객사가 사내 사용 한도(quota cap) 설정을 누락한 채 자동화 에이전트를 풀가동하면서 토큰 소비가 폭주한 것이 원인으로 지목된다. 업계에서는 이 사건을 "토큰맥싱(token-maxxing)의 역습"이라 부르며, 대형 언어모델을 에이전트형 워크플로에 그대로 붙였을 때 발생할 수 있는 비용 폭탄을 경고하는 사례로 언급하고 있다. 한국의 기업 도입 담당자 입장에서는 단순히 API 키를 발급하는 수준을 넘어 부서별 토큰 한도, 모델별 라우팅, 캐싱 전략을 운영 초기부터 강제해야 한다는 점이 다시 한번 부각됐다.
Claude Opus 4.8 정식 공개
같은 날 Anthropic은 차세대 플래그십 모델 Claude Opus 4.8을 출시했다. 회사는 이번 버전의 핵심 키워드로 "더 정직한 응답(more honest)", 향상된 코딩 능력, 그리고 직전 세대 대비 큰 폭으로 줄인 운영 비용을 들었다. 특히 hallucination 발생 시 모델이 스스로 모른다고 답하거나 근거를 요청하는 비율이 높아졌다는 점이 강조됐다. 코드 생성 영역에서는 장기 컨텍스트 유지와 다중 파일 리팩토링 품질이 개선돼, Codex 계열과의 비교 벤치마크에서도 경쟁력을 확보했다는 평가다.
- 운영 비용: 기존 Opus 대비 추론 단가가 의미 있게 인하돼, 엔터프라이즈 전면 적용의 진입장벽이 낮아졌다.
- 정직성: 모호한 질문에 대해 추측 대신 명시적 불확실성 표현을 학습시켰다.
- 코딩: 대규모 모노레포 작업 시 컨텍스트 일관성이 향상됐다.
Microsoft / 중국 AI — 증류 논쟁과 텐센트의 약진
"증류 의존으로는 한계" Microsoft AI 총괄의 직격
Microsoft AI를 이끄는 총괄 책임자는 공개 자리에서 "타사 프런티어 모델을 증류(distillation)해 만든 오픈소스 모델은 본질적 한계가 있다"며 자체 사전학습 기반 모델 개발을 천명했다. 이는 사실상 일부 중국 연구실의 접근 방식을 겨냥한 발언으로 해석된다. 그는 증류 모델이 단기적으로는 벤치마크 점수를 끌어올릴 수 있지만, 새로운 추론 패턴이나 도구 사용 능력을 스스로 확장하기 어렵다고 지적했다.
텐센트 Hy3, OpenRouter 3주 연속 1위
텐센트의 추론 특화 모델 Hy3가 OpenRouter 트래픽 순위에서 3주 연속 1위를 차지했다. 무료 프로모션이 종료되고 유료 전환이 시작된 이후에도 전체 2위 자리를 지키며 실수요가 있음을 입증했다. 코딩과 수학 추론에서 강점을 보이는 것으로 알려져, 가격 대비 성능을 중시하는 개발자 커뮤니티에서 빠르게 채택되고 있다.
Google AI — I/O 2026을 향한 라인업
Google I/O 2026 퀴즈, vibe coding으로 제작
Google은 다가오는 I/O 2026 행사를 앞두고 AI Studio에서 vibe coding 기법으로 만든 인터랙티브 퀴즈를 공개했다. 자연어 프롬프트만으로 프런트엔드 컴포넌트와 상태 관리, 점수 시스템까지 자동 생성되는 데모로, AI Studio가 단순 모델 플레이그라운드를 넘어 본격적인 앱 빌더로 진화하고 있음을 보여준다.
Gemini Omni와 Gemini 3.5 — 실전 데모 9종
Google DeepMind는 멀티모달 통합 모델 Gemini Omni와 텍스트 추론을 강화한 Gemini 3.5에 대한 데모 9종을 한 번에 공개했다. 실시간 화면 분석, 음성 대화 중 시각 정보 동시 처리, 코드 디버깅, 영상 요약 등이 포함됐으며 특히 Omni는 입력 양식 전환 시의 지연(latency)이 직전 세대 대비 크게 줄어든 점이 부각됐다.
Google Futures Lab의 프로토타입 공개
Google Futures Lab은 일반 공개 일정이 정해지지 않은 실험적 AI 프로토타입들을 외부에 노출했다. 모델이 사용자의 장기 목표를 추적하는 에이전트, 물리 시뮬레이션과 결합한 학습 도우미 등이 포함돼 있어, Google이 검색·생산성을 넘어 일상 보조 영역까지 영향력을 확장하려는 의도를 읽을 수 있다.
OpenAI — Codex 생태계 확장
Braintrust + Codex: 고객 요청을 코드로
평가·관측 플랫폼 Braintrust는 OpenAI Codex와 결합해 고객 지원 채널로 들어온 자연어 요청을 자동으로 코드 변경 사항으로 변환하는 워크플로를 공개했다. 티켓이 등록되면 Codex가 관련 저장소를 탐색해 PR 초안을 생성하고, Braintrust가 평가 파이프라인으로 회귀 테스트를 돌리는 구조다. 운영 인력이 한정된 SaaS 스타트업에게는 실질적인 처리 속도 단축 효과가 기대된다.
Boston Children's Hospital의 새로운 진단 발견
Boston Children's Hospital은 OpenAI 모델을 활용해 기존 임상 데이터에서 놓치고 있던 희귀 질환 진단 패턴을 발견했다고 발표했다. 의료진은 환자 기록과 유전 정보를 비정형 형태로 모델에 입력했고, 모델은 기존 분류 체계에 포함되지 않은 새로운 표현형 클러스터를 제안했다. 의료 AI가 진단 보조를 넘어 새로운 의학적 발견의 출발점이 될 수 있음을 보여주는 사례다.
한국 / 기타 — G7 무대의 한국, Mistral과 손잡나
한국 정부는 G7 디지털 장관회의에 참석해 주요국 AI 정책 담당자들과 양자 회담을 가졌다. 특히 프랑스 Mistral AI와의 협력 방안이 의제로 올랐다. 미국 빅테크 일변도였던 한국 AI 도입 지형에서 유럽계 오픈웨이트 모델과의 파트너십이 가시화될 경우, 공공 부문 모델 다변화와 데이터 주권 측면에서 의미 있는 변화가 예상된다.
오늘의 한 줄 인사이트
모델은 더 정직해지고 더 싸지지만, 한도 설정을 잊는 순간 청구서는 5억 달러가 된다. 2026년의 AI 운영은 모델 선택보다 가드레일 설계가 승부를 가른다.
댓글 0
아직 댓글이 없습니다.