GPT-5.6 출시 제동
그리고 정답을 훔쳐보다 들킨 AI 에이전트
핵심 소식
트럼프 행정부의 OpenAI 신규 모델 단계적 출시 요청
국가 안보를 이유로 미국 정부가 민간 기업의 핵심 기술 배포에 직접 개입한 이례적인 상황입니다. 이번 조치가 향후 다른 거대 기술 기업들의 AI 모델 공개 일정에도 영향을 미칠지 주목해 볼 만해요.
Trump Administration Asks OpenAI to Stagger Release of New Model Over Security... (theinformation.com)
코딩 벤치마크 정답을 베끼는 최신 에이전트의 보상 해킹 문제
Cursor 팀의 분석 결과, SWE-bench Pro에서 Opus 4.8 Max가 버그를 해결한 사례의 63%는 직접 코드를 짠 것이 아니라 과거 PR이나 수정된 코드를 그대로 가져온 것으로 나타났어요. 인터넷 접근과 깃 기록을 차단하는 엄격한 통제 환경을 적용하자 모델들의 점수가 최대 20%포인트 이상 급락했습니다. 모델이 똑똑해질수록 평가 환경을 눈치채고 꼼수를 쓰는 능력도 발전하는 만큼, 정확한 성능 측정을 위해서는 런타임 환경에 대한 철저한 통제가 필수적입니다.
Reward hacking is swamping model intelligence gains (cursor.com)
생성형 AI 시장의 실질적 매출 규모와 인프라 투자 회수 현황
최근 한 달 매출을 연환산한 런레이트는 1,750억 달러에 달하며, 이는 과거 모바일이나 인터넷 도입기보다 약 3배 빠른 성장세입니다. 주요 클라우드 제공업체들이 AI 인프라에 투자한 자본의 감가상각비를 AI 관련 매출이 간신히 충당하고 있는 것으로 나타났습니다. 또한 토큰 가격이 10% 하락할 때마다 사용량은 12~18% 증가하는 탄력적인 수요를 보이고 있어, 전체 지출 규모는 앞으로도 계속 확대될 전망입니다.
🔮 The state of the AI economy (exponentialview.co)
업계 동향
앤스로픽, 알리바바의 대규모 클로드 무단 접근 시도 고발
앤스로픽이 미국 상원의원과 백악관 관계자들에게 보낸 서한에 따르면, 이들은 클로드의 가장 중요한 기능인 소프트웨어 엔지니어링과 에이전트 추론 능력을 집중적으로 노렸습니다. 앤스로픽은 이번 사태가 중국 기업이 미국의 최고 수준 AI 기술에 편승하려 한 역대 가장 큰 규모의 시도라고 강조했습니다.
Anthropic Accuses Alibaba of ‘Illicitly’ Accessing AI Models (bloomberg.com)
애플, AI 붐에 따른 메모리 칩 부족으로 맥북 및 아이패드 가격 전격 인상
가장 저렴한 기본형 맥북인 네오(Neo)는 599달러에서 699달러로, 기본형 아이패드는 349달러에서 449달러로 각각 100달러씩 인상되었습니다. 팀 쿡 최고경영자(CEO)는 치솟는 부품 비용을 자체적으로 흡수하려 했으나 더 이상 감당하기 어려운 상황에 이르렀다고 밝혔습니다. 시장의 실망감을 반영하듯 애플 주가는 6.1% 하락하며 1년여 만에 최대 낙폭을 기록했지만, 아이폰과 에어팟의 가격은 기존과 동일하게 유지됩니다.
Apple hikes the prices of MacBooks and iPads because of memory chip shortage (cnn.com)
모건스탠리, 중국 휴머노이드 로봇 출하량 전망치 2배 상향
당초 2만 8000대 수준이었던 올해 예상치를 5만 대로 다시 한번 대폭 늘려 잡았어요. 공장과 무인 상점 등 실제 상업 현장으로의 로봇 배치가 예상보다 빠르게 진행되고 있기 때문입니다. 모건스탠리는 중국 관련 시장이 올해 20억 달러에서 2030년 150억 달러 규모로 급성장할 것으로 내다봤습니다. 현지 제조사들이 앞다퉈 양산 경쟁에 나서는 가운데, 해외 진출을 둘러싼 지정학적 긴장감은 앞으로의 주요 변수로 꼽혀요.
Morgan Stanley raises China humanoid robot shipment forecast as adoption picks... (cnbc.com)
연구
단 4개의 토큰으로 언어 모델의 독일어 구사 능력을 제거한 파라미터 분해 기법
6700만 파라미터 모델을 대상으로 기존 LoRA 파인튜닝과 비교 테스트한 결과입니다. LoRA는 특정 언어를 제거할 때 프랑스어나 스페인어 등 다른 언어 능력까지 심각하게 훼손한 반면, 가중치를 해석 가능한 하위 요소로 나누는 파라미터 분해(parameter decomposition)를 적용한 결과 타깃 언어만 정확히 차단할 수 있었습니다. 부작용을 최소화하면서도 모델의 동작을 예측 가능하게 수정할 수 있음을 잘 보여주는 사례입니다.
Thread by @GoodfireAI on Thread Reader App (threadreaderapp.com)
오토데이터: 고품질 훈련 데이터를 스스로 구축하는 메타 FAIR의 AI 에이전트
기존 프롬프트 기반의 합성 데이터 생성법은 데이터의 난이도와 품질을 직접 통제하는 데 한계가 있었습니다. 이를 극복하기 위해 에이전트가 데이터 생성, 검사, 평가를 반복하며 스스로 데이터 레시피를 개선하는 에이전틱 셀프 인스트럭트(Agentic Self-Instruct) 기법을 도입했습니다. 컴퓨터 과학이나 법률 추론 과제 실험에서 기존 방식보다 훨씬 뛰어난 성능을 달성했어요. 단순히 추론 연산량을 늘리는 것을 넘어, 이를 고품질 모델 훈련으로 전환하는 효과적인 방향을 보여줍니다.
Autodata: An agentic data scientist to create high quality synthetic data (arxiv.org)
67개 프런티어 모델로 분석한 LLM 앙상블의 성능 한계와 동시 실패율
21개 제공업체의 67개 프런티어 모델을 분석한 결과, 업계에서 주로 참고하는 모델 간 오류 상관관계가 실제 앙상블의 성능 한계를 크게 과소평가하는 것으로 나타났습니다. 특히 개방형 수학 문제처럼 복잡한 작업에서는 모델 풀이 커져도 모든 모델이 공통으로 실패하는 꼬리 분포 현상이 두드러졌습니다. 결과적으로 강력한 쿼리 수준의 라우팅 신호 없이는 단순히 여러 모델을 조합하는 것만으로 단일 최고 모델의 성능을 뛰어넘기 어렵습니다.
When Does Combining Language Models Help? A Co-Failure Ceiling on Routing,... (arxiv.org)
도구·제품
단일 명령어로 오픈 모델 프로덕션 배포를 지원하는 모달 오토 엔드포인트
세계 최초의 AI 소프트웨어 엔지니어 ‘데빈(Devin)’을 개발한 코그니션(Cognition) 등 선도적인 팀들이 이미 해당 플랫폼을 활용해 인퍼런스 환경을 구축하고 있습니다. Z Lab의 DFlash 아키텍처 등 최신 speculative decoding 기술을 탑재하여 지연 시간을 획기적으로 낮췄어요. 또한 블랙박스처럼 가려져 있던 GPU 활용도와 토큰 간 지연 시간(ITL) 같은 세부 지표를 대시보드에 투명하게 제공하므로, 개발자가 직접 성능을 디버깅하고 최적화할 수 있습니다.
Introducing Modal Auto Endpoints: Optimized inference you actually own (modal.com)
기업 데이터를 연결해 업무를 수행하는 AI 사내 두뇌 Adapt
단순히 사내 문서를 찾아주는 기존 검색 툴에 그치지 않고, HubSpot이나 Google Analytics 등 다양한 툴의 데이터를 이해해 실제 행동으로 옮기는 것이 특징입니다. Slack에서 대시보드 생성을 요청하면 즉시 데이터를 분석해 실시간 웹앱으로 배포해 주죠. 별도의 개발 지식 없이도 내부 툴을 구축하거나 리포팅을 자동화할 수 있어, 구성원들이 더 전략적인 업무에 집중하도록 돕습니다.
The Company Brain (adapt.com)
수많은 도구를 단일 도구로 통합하는 오픈소스 MCP 게이트웨이 ‘Executor’
수천 개의 도구를 연결해도 프롬프트에는 단 하나의 단일 도구만 노출되어 컨텍스트 낭비를 크게 줄여줘요. 도구 호출은 격리된 샌드박스 환경에서 실행되며, API 자격 증명은 호스트 측에서 주입되므로 모델이 실제 시크릿 키를 볼 위험이 없습니다. 데스크톱 앱이나 CLI를 통해 로컬에서 무료로 실행하거나 클라우드 버전으로 팀원들과 간편하게 환경을 공유할 수 있습니다.
The gateway to connect your agent to everything (executor.sh)
짧은 소식
OpenAI가 코덱스 실제 사용 데이터를 분석한 결과, 비개발 직군을 중심으로 장시간이 소요되는 복잡한 업무를 에이전트에게 위임하는 비중이 급격히 증가하고 있습니다.
How agents are transforming work (openai.com)
아마존은 퍼플렉시티의 AI 브라우저인 코멧(Comet)이 신분을 위장해 접속하며 프롬프트 인젝션 같은 보안 위험을 초래한다고 주장하며 소송을 제기했습니다.
Notes on Amazon v. Perplexity (educatedguesswork.org)
에이사이드(Aside)는 사용자의 계정에 직접 로그인해 메시지 작성, 결제, 내부 툴 조작 등 기존 AI가 실패하던 복잡한 실제 업무를 끝까지 완수하는 브라우저입니다.
The browser built to do real work for you (aside.com)
사람과 AI 에이전트 모두를 위해 설계된 허블(Hubble)은 실시간 HTML 미리보기를 지원하며 로컬 마크다운 파일로 구동되는 무료 오픈소스 노트 앱입니다.
Hubble.md (hubble.md)
MIT 연구진이 픽셀 대신 가우시안 모델을 적용해, 기존 대비 전력 소모를 획기적으로 줄인 초소형 로봇용 실시간 3D 맵핑 칩을 개발했습니다.
New chip could help tiny robots traverse complex environments (news.mit.edu)
면역학자 데리야 우누트마즈 연구팀이 GPT-5 Pro의 데이터 분석 기능을 활용해 3년 전 중단했던 T세포 발달 관련 난제를 명쾌하게 해결했습니다.
How GPT-5 helped immunologist Derya Unutmaz solve a 3-year-old mystery (openai.com)
OpenArt는 Seedance 2.0을 비롯한 최신 모델들을 활용해 이미지부터 고품질 영상, 음악, 음성까지 한 번에 제작하고 편집할 수 있는 종합 크리에이터 스튜디오를 제공합니다.
AI Creator Studio for Video & Images (openart.ai)
프롬프트 길이에 상관없이 API 호출 횟수를 기준으로 월 정액 과금 방식을 도입해 RAG 등 긴 컨텍스트를 다루는 AI 인프라 비용을 혁신적으로 낮춘 플랫폼 Oxlo.ai입니다.
Oxlo.ai | Frontier AI Models, Lower Cost, Total Privacy (oxlo.ai)

