AI 에이전트가 브라우저를 조종하는 시대
귀찮은 웹 테스트, 이제 에이전트 몫이다
핵심 소식
애플, Safari MCP 서버로 AI 에이전트에 브라우저 제어 권한 개방
Safari Technology Preview 247에 탑재된 MCP 서버를 통해 AI 에이전트가 탭 열기, DOM 접근, 네트워크 요청 확인, 스크린샷 캡처 등 브라우저를 직접 제어할 수 있게 되었다. 개발자는 호환성 테스트, 접근성 검사, 성능 분석 등 반복적인 웹 개발 작업을 에이전트에 위임할 수 있으며, 모든 처리는 외부 네트워크 호출 없이 로컬 환경에서 이루어진다.
Introducing the Safari MCP server for web developers (webkit.org)
앤스로픽, 삼성전자와 맞춤형 AI 칩 공동 개발 논의 착수
앤스로픽이 엔비디아 의존도를 낮추고 특정 연산 작업에 최적화된 하드웨어를 확보하기 위해 삼성전자와 맞춤형 AI 칩 생산을 협의하고 있다. 구체적인 칩 용도나 서버 통합 방식은 아직 결정되지 않았으나, 브로드컴과 자체 추론용 칩을 공개한 오픈AI에 이어 프론티어 AI 기업들의 독자 실리콘 확보 경쟁이 본격화되는 흐름이다. 앤스로픽 측은 구글, 아마존, 엔비디아 칩을 아우르는 다각화된 하드웨어 전략을 유지하겠다고 밝혔다.
Anthropic is discussing a new custom chip with Samsung (techcrunch.com)
프론티어 모델도 75% 이상 실패하는 Senior SWE-Bench 공개
Snorkel AI가 기존 벤치마크의 한계를 넘어 런타임 디버깅과 코드 완성도까지 평가하는 Senior SWE-Bench를 발표했다. 과도하게 구체적인 지시 대신 실제 현업에서 마주하는 모호한 요구사항을 기반으로 설계되었으며, 검증 에이전트가 제출 솔루션에 맞춰 동작 테스트를 동적으로 생성한다. 현존 최고 수준의 프론티어 모델들도 75% 이상의 실패율을 기록해, AI 코딩 에이전트의 실질적 역량을 가늠하는 새로운 기준이 될 전망이다.
Senior SWE-Bench (senior-swe-bench.snorkel.ai)
업계 동향
오픈AI, 미 정부에 지분 5% 양도를 제안하다
최근 8,520억 달러의 기업 가치를 평가받은 오픈AI가 미국 정부에 약 426억 달러 규모의 지분 5%를 양도하는 방안을 제안했다. 샘 올트먼 CEO는 정부의 지분 참여가 AI의 경제적 혜택을 대중과 공유하는 최선의 방법이라고 주장했으나, 투자자들은 트럼프 행정부의 환심을 사려는 정치적 행보로 해석한다. 이 구상에는 앤스로픽, 구글 등 다른 미국 AI 기업들도 국부 펀드를 통해 유사한 지분을 양도하는 계획이 포함되어 있다.
OpenAI proposes U.S. government own 5% stake to address political blowback (cnbc.com)
메타, 차세대 모델 ‘워터멜론’이 GPT-5.5 수준에 도달했다고 주장
메타 AI 책임자 알렉산드르 왕이 현재 학습 중인 차세대 모델 ‘워터멜론’이 주요 벤치마크에서 GPT-5.5 수준에 도달했다고 사내에 밝혔다. 이 모델은 지난 4월 발표된 ‘뮤즈 스파크’보다 10배 이상의 컴퓨팅 자원을 투입해 학습 중이다. 다만 구체적인 벤치마크 지표는 공개되지 않았으며, 양사 모두 공식 입장을 내놓지 않아 독립적인 검증 전까지는 공격적 컴퓨팅 투자의 초기 지표로 받아들여야 한다.
Meta’s Watermelon Matches GPT-5.5 Benchmarks (letsdatascience.com)
엔비디아, 수익 공유 기반 GPU 접근 모델로 AI 인프라 확장 가속
엔비디아가 AI 기업들이 대규모 초기 투자 없이도 GPU 컴퓨팅을 빠르게 확보할 수 있도록 클라우드 파트너와의 수익 공유 모델을 도입했다. 첫 파트너인 섀런 AI는 최대 4만 개의 GB300 GPU를 배치하고, 퍼머스는 인도네시아에 17만 GPU 규모의 360MW AI 팩토리를 건설 중이다. 자본과 데이터센터 구축 시간이 부족했던 모델 빌더들이 대규모 학습·추론 환경에 즉시 접근할 수 있는 길이 열렸다.
NVIDIA Unlocks AI Compute at Scale, Inviting Partners to Power the AI... (blogs.nvidia.com)
연구
애플, 버려진 토큰 재활용으로 확산 언어 모델 정확도 2배 향상
애플 머신러닝 연구진이 블록 단위 확산 언어 모델에서 재마스킹 과정에 폐기되는 토큰의 연산 결과를 문맥 잔차로 변환해 다음 디노이징 단계에 재주입하는 잔차 문맥 확산(RCD) 모듈을 발표했다. 분리된 2단계 학습 파이프라인으로 메모리 병목을 해소했으며, 약 10억 개 토큰만으로 기존 모델을 새 구조로 빠르게 전환할 수 있다. AIME 벤치마크에서 기준 모델 대비 정확도를 2배 가까이 높이고, 동일 정확도 기준 디노이징 단계를 최대 5분의 1로 줄였다.
Residual Context Diffusion Language Models (machinelearning.apple.com)
AI 에이전트의 프리랜서 업무 자동화율, 8개월 만에 4배 급증
원격 프리랜서 업무를 인간 전문가 수준으로 수행하는 AI 에이전트의 자동화율이 8개월 만에 4배 이상 증가해 최고 16.1%에 도달했다. Fable 5가 3D 모델링, 2D 애니메이션, 건축 도면 등 실제 외주 프로젝트에서 선두를 차지했으며, 컴퓨터 사용 능력을 갖춘 에이전트에 비평가 피드백 루프를 적용해 완성도를 높였다. 다만 자동화된 LLM 평가 시스템이 최신 모델의 능력을 2~3배 과대 추정하는 한계가 발견되어, 복잡한 결과물 검증에는 여전히 인간 심사관이 필수적이다.
A Significant Increase in Digital Labor Automation (safe.ai)
도구·제품
코그니션, 취약점 탐지부터 패치 PR까지 자동화하는 데빈 시큐리티 스웜 출시
코그니션이 다수의 에이전트를 병렬로 투입해 코드베이스 전반의 보안 취약점을 탐지하고 수정 PR까지 자동 작성하는 데빈 시큐리티 스웜을 공개했다. 발견된 취약점은 샌드박스 환경에서 런타임 악용 가능성까지 검증하며, 실제 보안 취약점(GHSA) 50개 대상 평가에서 72%의 탐지율을 기록해 경쟁 도구 대비 30% 낮은 비용으로 최고 성능을 달성했다. 기존 위협 모델 문서에서 스캔 프로필을 바로 생성할 수 있어 조직 맞춤형 정기 검사 도입이 용이하다.
Introducing Devin Security Swarm (cognition.com)
풀사이드 라구나 XS 2.1, 로컬 에이전틱 코딩 모델의 새 기준
풀사이드가 로컬 환경의 에이전틱 코딩과 장기 작업에 최적화된 33B 파라미터 MoE 모델 라구나 XS 2.1을 출시했다. SWE-bench Multilingual에서 63.1%를 달성해 이전 버전 대비 5.4포인트 상승했으며, vLLM과 Ollama를 지원하고 VRAM 제약 환경을 위한 세 가지 양자화 체크포인트를 제공한다. 함께 공개한 DFlash 스페큘레이터 모델로 토큰 생성 속도를 2배 가까이 높일 수 있으며, 허용적인 OpenMDW-1.1 라이선스를 적용해 활용 제약을 크게 줄였다.
Introducing Laguna XS 2.1 (poolside.ai)
xAI, 코딩 없이 2분 만에 음성 에이전트를 만드는 보이스 빌더 공개
xAI가 Grok 모델 기반의 맞춤형 음성 에이전트를 코딩 없이 2분 만에 구축하는 보이스 에이전트 빌더 베타 버전을 공개했다. 1초 이내의 응답 속도로 대화 중 끊김이나 복잡한 요청을 자연스럽게 처리하며, MCP를 통해 내부 CRM이나 데이터베이스와 연결할 수 있다. 2분 분량의 오디오만으로 브랜드 전용 음성을 복제하는 기능도 제공하며, 브라우저에서 바로 지식 베이스 연동과 통화 품질 테스트가 가능하다.
Voice Agent Builder: Create Your Own Voice Agent in Under 2 Minutes (x.ai)
짧은 소식
SGLang 팀이 벤치마킹과 커널 프로파일링 같은 반복 개발 절차를 SKILL.md 문서로 규격화해 에이전트에 위임하는 초기 탐구 결과를 공유했다.
Agent-Assisted SGLang Development: An Initial Exploration - LMSYS Org (lmsys.org)
휴머노이드 로봇 기업 Figure가 자체 비전-언어-행동 모델을 탑재한 차세대 로봇 Figure 03을 BMW 생산 라인에 투입해 물류 워크플로 전반으로 역할을 넓혔다.
F.03 Arrives at BMW (figure.ai)
앤스로픽이 Claude Fable 5로 장기 자율 작업을 시킬 때 핵심 지침만 간결하게 제공하고 비동기 통신과 병렬 서브 에이전트를 활용하라는 공식 프롬프트 가이드를 공개했다.
Prompting Claude Fable 5 - Claude Platform Docs (platform.claude.com)
마이크로소프트가 6,000명의 전문가를 고객사에 투입해 맞춤형 AI 시스템을 공동 설계하는 조직 ‘프론티어 컴퍼니’를 신설했으며, 고객 데이터는 범용 모델 학습에 쓰지 않는다.
Microsoft Frontier Company: AI engineering that amplifies and protects your... (blogs.microsoft.com)
AI 에이전트가 불필요한 문구를 걷어내고 평이한 문체로 쓰도록 이끄는 규칙 세트가 수정 내역을 HTML로 시각화하는 도구와 함께 GitHub에 공개되었다.
shreyashankar/plain-writing-skill: A plain-language writing skill for AI... (github.com)
OpenAI와 Thrive Holdings가 세무 전문가의 피드백을 코덱스(Codex)의 평가 목표로 전환해 스스로 오류를 분석하고 성능을 개선하는 세무 AI를 공동 개발했다.
Building self-improving tax agents with Codex (openai.com)

