OpenAI 추론 칩 '할라피뇨' 공개와 Gemini의 화면 제어 선언
할라피뇨는 얼마나 매울까?
핵심 소식
OpenAI와 Broadcom의 LLM 추론 최적화 칩 할라피뇨 공개
설계부터 첫 테이프아웃 단계까지 단 9개월 만에 완성된 이 프로젝트는 OpenAI 모델을 설계 최적화에 직접 투입해 개발 기간을 크게 단축했습니다. 초기 테스트 결과 기존 최고 수준의 칩보다 전력 대비 성능이 대폭 향상된 것으로 나타났어요. 2026년부터 마이크로소프트 등 파트너사와 함께 기가와트 규모의 데이터센터에 도입되어 더 빠르고 저렴한 AI 서비스 운영을 지원하게 됩니다.
OpenAI and Broadcom unveil LLM-optimized inference chip (openai.com)
Gemini 3.5 Flash, 화면 제어 기능 ‘Computer Use’ 네이티브 통합 출시
기존에는 독립적인 2.5 모델로만 제공되던 기능이 이제 메인 Flash 모델에 네이티브로 통합되었어요. 개발자는 Gemini API와 엔터프라이즈 에이전트 플랫폼을 통해 소프트웨어 테스트나 지식 노동과 같은 복잡한 자동화 작업을 수행하는 맞춤형 에이전트를 한층 안정적으로 구현할 수 있습니다. 또한 프롬프트 인젝션 방지를 위한 적대적 훈련과 민감한 작업에 대한 사용자 승인 요구 등 엔터프라이즈급 안전 장치도 함께 지원해요.
Introducing computer use in Gemini 3.5 Flash (blog.google)
Anthropic, 슬랙 채널 내 AI 에이전트 동료 ‘Claude Tag’ 출시
현재 Anthropic 제품 팀 코드의 65%가 이 기능의 내부 버전으로 작성되었을 정도로 강력한 도입 효과를 보여줍니다. 채널 내 대화 맥락을 기억해 코딩이나 데이터 분석을 비동기적으로 수행하며, 주목할 만한 정보는 사용자에게 먼저 알려주기도 해요. 기업 관리자는 모델의 툴 접근 권한과 토큰 한도를 채널별로 세밀하게 제어할 수 있습니다.
Introducing Claude Tag (anthropic.com)
도구·제품
구글 워크스페이스의 모든 API를 통합 관리하는 CLI
정적인 명령어 목록 대신 구글의 디스커버리 서비스를 읽어와 런타임에 명령어 표면을 동적으로 생성하는 것이 가장 큰 특징이에요. 모든 응답을 구조화된 JSON으로 반환하며 100개 이상의 AI 에이전트 스킬을 기본으로 제공합니다. 사람이 터미널에서 사용하기 편리할 뿐만 아니라, LLM과 연동하여 자동화 워크플로를 구축하기에도 좋습니다.
googleworkspace/cli: Google Workspace CLI — one command-line tool for Drive,... (github.com)
다수의 코딩 에이전트를 병렬로 지휘하는 차세대 IDE, Orca
에이전트별로 독립적인 작업 환경을 제공하여 여러 레포지토리에서의 동시 작업을 안전하게 관리할 수 있습니다. 특정 모델에 얽매이지 않고 원하는 CLI 코딩 에이전트를 자유롭게 연동해 사용하는 것이 큰 장점입니다. macOS, Windows, Linux뿐만 아니라 모바일 환경에서도 AI 에이전트 편대를 효율적으로 운영해 보세요.
stablyai/orca: Orca is the next-gen IDE for working with a fleet of parallel... (github.com)
토큰 오버헤드를 90% 줄이는 로컬 MCP 게이트웨이 ‘Conduit’
서버를 여러 개 연결할수록 에이전트의 컨텍스트 창에는 도구 정의만으로 수만 개의 토큰이 낭비됩니다. 이를 해결하기 위해 등장한 이 앱은 에이전트에게 단 3개의 메타 도구만 노출하여 요청당 도구 오버헤드를 97%까지 낮춥니다. API 키는 클라우드가 아닌 OS 키체인에 안전하게 보관되며, 개별 도구 제어와 실시간 호출 모니터링 기능까지 로컬 환경에서 바로 지원해줍니다.
Conduit — the local MCP gateway that cuts tool-token overhead ~90% (conduit.southforgeai.com)
연구
Mistral OCR 4: 바운딩 박스와 문서 구조화 기능을 갖춘 SOTA 모델 출시
독립 평가에서 기존 문서 AI 시스템들을 제치고 72%의 승률을 기록하며 뛰어난 성능을 입증했어요. 단순 텍스트 변환을 넘어 표, 수식, 서명 등 블록 타입을 정확히 분류하기 때문에 RAG나 에이전트 워크플로에 즉시 활용할 수 있습니다. 기업의 데이터 주권과 보안을 위해 자체 인프라 내부에서 안전하게 대규모로 구동할 수 있다는 점도 돋보입니다.
Mistral OCR 4 : SOTA OCR for Document Intelligence (mistral.ai)
프롬프트 인젝션의 원인으로 밝혀진 LLM의 역할 혼동
연구진은 모델의 내부 상태를 분석해 가짜 추론 과정(CoT Forgery) 주입 시 공격 성공률이 0% 수준에서 약 60%까지 급증하는 것을 확인했어요. LLM은 시스템이 부여한 ‘tool’ 등의 태그보다 텍스트가 자신의 추론처럼 들리는지 여부를 더 신뢰하여 보안 취약점을 노출합니다. 이는 단순히 공격 패턴을 암기하는 기존 방어 방식의 한계를 명확히 보여줍니다.
Prompt Injection as Role Confusion (role-confusion.github.io)
7개 도메인 환경을 시뮬레이션하는 언어 세계 모델 Qwen-AgentWorld
1,000만 건 이상의 실제 환경 상호작용 데이터를 바탕으로 CPT, SFT, RL의 3단계 파이프라인을 거쳐 구축되었어요. 독립된 환경 시뮬레이터로서 통제 가능한 수천 개의 가상 환경을 제공해 에이전트의 강화학습(RL)을 크게 돕습니다. 또한 세계 모델 학습 자체가 강력한 워밍업 역할을 수행하여, 다운스트림 벤치마크 전반에서 기존 프론티어 모델을 뛰어넘는 성과를 보여줍니다.
Qwen-AgentWorld: Language World Models for General Agents (arxiv.org)
업계 동향
스페이스X, 리플렉션 AI와 63억 달러 규모 컴퓨팅 임대 계약
이번 계약은 월 1억 5천만 달러 규모로, ‘콜로서스 2(Colossus 2)’ 데이터 센터 자원이 온전히 외부 고객에게 제공되는 첫 사례입니다. 앞서 성사된 두 건의 대규모 계약을 포함하면 총 253억 달러의 누적 확정 매출을 확보하게 되었네요. 당초 자사 AI 모델 구동에만 인프라를 집중하겠다던 일론 머스크의 기조가 부문 수익성 확대를 위해 대규모 임대 사업으로 선회한 것으로 보입니다.
Elon Musk’s SpaceX Turns to Reflection AI in $6.3B Compute Deal (eweek.com)
메타, 내부 데이터 유출로 직원 모니터링 AI 프로그램 일시 중단
모델 역량 이니셔티브(MCI)를 통해 수집된 개인 대화 내용과 성과 데이터 등이 메타의 전체 임직원에게 노출되는 사고가 발생했습니다. 사측은 자체 조사가 진행되는 동안 프로그램 가동을 보류한다고 밝혔습니다. 최근 에이전트 AI의 임의 행동으로 인한 보안 침해 등 메타 내에 AI 관련 사고가 연이어 불거지는 모습입니다.
Meta Is ‘Pausing’ Employee Tracking Program After It Let The Whole Company See... (engadget.com)
앤스로픽, 일부 클로드 사용자의 신분증 제출 요구 방침
오는 7월 8일부터 발효되는 개인정보 처리방침에 따라 의심 계정으로 분류된 소수의 사용자는 여권이나 운전면허증 등 신분증 스캔본과 얼굴 데이터를 제출해야 합니다. 앤스로픽 측은 무조건적인 계정 정지 대신 항소 기회를 제공하기 위한 조치라고 설명합니다. 한편으로는 사이버 보안 모델 접근을 두고 트럼프 행정부와 빚고 있는 갈등 상황을 의식한 행보라는 분석도 나옵니다.
Anthropic says Claude may want to see your ID (techcrunch.com)
짧은 소식
구글 클라우드가 아이디어 구상부터 프로덕션 확장까지 AI 에이전트 개발의 전 과정을 다루는 스타트업용 기술 가이드를 제공합니다.
Startup technical guide: AI agents (cloud.google.com)
AI가 같은 실수를 반복하지 않도록 SKILL.md 파일과 함께 실패 사례를 지속적으로 기록하는 PITFALLS.md 파일을 만들어 활용해 보세요.
AI Coding Tip 025 - Pair Every Skill With a Pitfalls File (maxicontieri.substack.com)
기업용 지출 관리 플랫폼 Ramp에서 작업 난이도에 따라 모델과 설정을 최적화하여 불필요한 AI 지출을 줄이고 실질적인 비즈니스 가치를 창출하는 팁을 소개해요.
You’re Spending Too Much on AI. You’re Also Using Too Little. (engineering.ramp.com)
앤스로픽의 최신 실험 결과, 클로드 오퍼스 4.7은 인간의 개입 없이도 가장 빨랐던 인간 팀보다 약 20배 빠르게 로보독 제어 작업을 완수했습니다.
Project Fetch: Phase two (anthropic.com)
구글의 AI 오버뷰가 AI 검색 기능을 피하고 싶은 사용자들에게 선택적 AI 경험을 제공하는 경쟁 검색 엔진 덕덕고(DuckDuckGo)를 대안으로 추천했습니다.
Google AI Recommends DuckDuckGo to Users Avoiding AI Search (eweek.com)

