클로드 소넷 5와 GPT-5.6 Sol 출격
새 모델 적응하기도 전에 다음 모델이 나온다
핵심 소식
코딩 성능은 오퍼스급, 가격은 절반인 클로드 소넷 5
앤스로픽이 복잡한 코딩과 도구 활용 능력을 대폭 강화한 클로드 소넷 5를 공개했다. 출력값 자체 검증과 버그 근본 원인 추적 등 워크플로를 자율적으로 완수하는 능력이 돋보이며, 환각과 악의적 요청에 대한 방어력도 개선되었다. 오는 8월 31일까지 100만 입력 토큰당 2달러의 도입 특가로 제공된다.
Introducing Claude Sonnet 5 (anthropic.com)
OpenAI 차세대 GPT-5.6 Sol, 파트너 대상 제한 프리뷰 시작
OpenAI가 Sol, Terra, Luna 세 가지 라인업으로 구성된 GPT-5.6 제품군을 공개했다. 최고 성능의 Sol은 서브 에이전트를 활용해 복잡한 다단계 문제를 해결하며, Ultra 모드로 소프트웨어 개발과 과학 연구 속도를 크게 높였다. 현재 소수 파트너에게만 API와 Codex로 제공 중이며, 수주 내 일반 개방 예정이다.
Previewing GPT-5.6 Sol: a next-generation model (openai.com)
수출 통제 해제된 클로드 페이블 5, 안전장치 보강 후 전 세계 재출시
지난 6월 안전장치 우회 기법이 발견되어 미국 정부의 수출 통제를 받았던 클로드 페이블 5가 복귀했다. 앤스로픽은 해당 공격을 99% 이상 차단하는 새 안전 분류기를 도입했으며, 아마존·구글·마이크로소프트와 협력해 AI 탈옥 심각성 평가를 위한 업계 공통 프레임워크를 개발 중이다. 방어적 사이버 보안용 클로드 미토스 5 역시 미국 내 일부 기관에 접근이 복원되었다.
Redeploying Claude Fable 5 (anthropic.com)
업계 동향
메타, 잉여 AI 컴퓨팅 자원 판매하는 클라우드 사업 진출
메타가 막대한 인프라 투자 비용을 회수하기 위해 외부 고객에게 AI 컴퓨팅 자원을 판매하는 클라우드 비즈니스를 준비한다. 발표 직후 메타 주가는 9% 급등한 반면, 코어위브 등 신흥 클라우드 기업 주가는 12%가량 급락했다. 자체 인프라에 호스팅된 AI 모델 접근 권한 제공과 원시 컴퓨팅 파워 판매를 저울질하고 있으며, 유휴 자원을 판매하기 시작한 xAI와 비슷한 행보다.
Meta stock pops on cloud push to sell excess AI compute power capacity (cnbc.com)
AI 칩 스타트업 에치드, 50억 달러 기업가치에 10억 달러 수주 달성
엔비디아의 대항마로 꼽히는 에치드가 TSMC를 통한 첫 칩 생산에 성공하고 10억 달러 규모의 시스템 주문을 확보했다. 누적 투자금 8억 달러를 바탕으로 저전압 추론(LVI)과 클러스터 스케일 메모리(CSM)를 결합한 추론 전용 클러스터를 올여름 첫 출하할 예정이다. 제프리 힌튼을 비롯한 업계 거물들의 지지를 받으며 빠르게 성장하고 있다.
Nvidia competitor Etched hits $5B valuation, $1B in sales for AI chip (techcrunch.com)
오픈소스 AI 인프라 투게더 AI, 83억 달러 가치로 8억 달러 투자 유치
아람코 벤처스 주도, 엔비디아 참여로 시리즈 C 8억 달러를 확보했다. 오픈소스 모델을 활용해 폐쇄형 대비 최대 60배 저렴한 AI 워크로드 실행을 지원하며, 코그니션과 커서 등을 고객사로 두고 있다. 연간 예약 매출 11억 5000만 달러를 돌파했으며, 향후 5년 내 인프라 용량을 50배 확장할 계획이다.
Together AI Raises $800 Million at $8.3 Billion Valuation to Make Frontier AI... (businesswire.com)
연구
브리지워터, 전문가 판단 복제한 맞춤형 LLM으로 범용 모델 능가
투자 문서 필터링에서 범용 AI 모델들이 80% 정확도를 넘지 못하자, 브리지워터 연구진은 Qwen3-235B를 전문가 검증 데이터와 인터리브 배칭으로 파인튜닝했다. 최고 성능 범용 모델 대비 오류를 약 30% 줄이고 추론 비용은 13.8배 낮추는 데 성공했다. 도메인 특화 파인튜닝이 범용 스케일링 못지않게 효과적임을 실증한 사례다.
Learning to Replicate Expert Judgment in Financial Tasks - Thinking Machines Lab (thinkingmachines.ai)
CPU-GPU 병렬 파이프라인으로 추론 처리량 35% 향상시킨 Moondream Photon
일반적인 AI 추론에서는 CPU가 다음 토큰을 준비하는 동안 GPU가 유휴 상태에 빠지는 병목이 발생한다. Moondream의 추론 엔진 Photon은 핑퐁 슬롯과 지연 샘플링으로 GPU 연산과 CPU 작업을 중첩 실행하여 이 낭비를 제거했다. NVIDIA B200 환경에서 최대 35% 처리량 향상을 달성했으며, 연산 속도가 빠른 최신 GPU일수록 효과가 더 크다.
Popping the GPU Bubble (moondream.ai)
구글, 학습 없이 정형 데이터를 예측하는 제로샷 모델 TabFM 오픈소스 공개
구글 리서치가 복잡한 피처 엔지니어링이나 모델 학습 없이 정형 데이터의 분류·회귀를 수행하는 TabFM을 공개했다. 훈련 데이터와 테스트 행을 단일 프롬프트로 입력받아 추가 가중치 업데이트 없이 변수 간 관계를 파악하며, TabArena 벤치마크에서 튜닝된 기존 모델을 능가했다. 빅쿼리에도 통합 예정이어서 SQL만으로 활용할 수 있게 된다.
Introducing TabFM: A zero-shot foundation model for tabular data (research.google)
도구·제품
자연어 한 줄로 브라우저를 조작하는 Browserbase 관리형 에이전트 출시
Browserbase가 자연어 목표를 바탕으로 단일 API 호출만으로 웹사이트를 탐색하고 구조화된 데이터를 반환하는 관리형 브라우저 에이전트를 정식 출시했다. 월 3,500만 건 이상의 세션을 처리하는 인프라 위에서 작동하며, Ramp와 Shopify 등이 사용하는 환경과 동일하다. 대상 사이트의 레이아웃이 변경되어도 스크립트를 새로 짤 필요 없이 유연하게 대응한다.
Introducing Browserbase Agents (browserbase.com)
코그니션, 메인+보조 모델 병렬 실행으로 코딩 비용 35% 절감하는 데빈 퓨전
코그니션이 고성능 메인 모델과 저비용 보조 모델을 병렬로 실행하는 데빈 퓨전을 발표했다. 메인 에이전트는 계획 수립과 최종 검토만 담당하고 대부분의 작업을 사이드킥에게 위임하여, 성능 저하 없이 비용을 35% 줄였다. 작업 도중 모델을 동적으로 전환하면서도 컨텍스트 압축으로 캐시 페널티를 회피하는 라우팅 기술이 핵심이다.
Devin Fusion (cognition.com)
GitHub Copilot CLI, 작업 난이도에 따라 최적 모델을 자동 배정
GitHub Copilot CLI가 작업의 복잡도와 실시간 모델 상태를 평가해 가장 적합한 모델로 라우팅하는 자동 선택 기능을 도입했다. 유료 구독자는 자동 라우팅 시 직접 호출 대비 10% 할인된 크레딧 차감률을 적용받는다. 캐시 경계를 따라 라우팅되어 불필요한 비용을 방지하며, /model 명령어로 수동 전환도 가능하다.
Copilot CLI auto model selection routes based on task - GitHub Changelog (github.blog)
짧은 소식
Nano Banana 2 Lite는 4초 만에 이미지를 생성하며 1,000장당 0.034달러의 파격적 비용을 자랑한다. Gemini Omni Flash는 초당 0.10달러로 고품질 비디오 생성과 자연어 기반 편집을 지원한다.
Start building with Nano Banana 2 Lite and Gemini Omni Flash (blog.google)
클로드 사이언스는 60여 개의 과학 데이터베이스와 컴퓨팅 자원을 단일 환경으로 통합한 과학자 전용 도구다. 단백질 구조 예측이나 유전체 파이프라인 등 복잡한 워크플로를 하나의 인터페이스에서 처리하며, 실행 코드와 환경이 포함된 재현 가능 아티팩트를 자동 생성한다.
Claude Science, an AI workbench for scientists (anthropic.com)
기업 지출 관리 플랫폼 Ramp가 자사의 AI 관련 지출 내역을 레벨리오 랩스의 인력 기록과 직접 연계해 기업 단위 고용 변화를 추적했다.
A New Look at AI’s Impact on Jobs (ramp.com)
앤스로픽의 경제 지표 보고서에 따르면 고임금 직군의 작업일수록 더 많은 토큰을 소비하며 높은 자율성을 위임하는 경향이 뚜렷하다. 단순 대화를 넘어 장기 에이전트 작업으로 사용 패턴이 진화하고 있음을 보여주는 데이터다.
Anthropic Economic Index report: Cadences (anthropic.com)

