Anthropic의 Opus 상위 ‘Capybara’ 티어가 유출됐다

헤드라인: Anthropic의 Opus 상위 ‘Capybara’ 티어가 유출됐다

참고 링크: 544 Twitters · AINews’ website · AINews is now a section of Latent Space · opt in/out

삭제된 “Claude Mythos” 관련 게시물이 보존되며, Anthropic이 Opus보다 상위인 새 티어 Capybara를 준비 중이라는 정황이 확산됐다. 코딩·학술적 추론(academic reasoning)·사이버보안(cybersecurity) 성능이 크게 개선됐다는 주장과 함께, 전력·자본지출(capex) 같은 인프라 제약이 경쟁의 병목이 되고 있다는 해석도 나왔다. 같은 날 529 등 가용성(availability) 오류 제보가 이어지면서, 공격적 스케일링(scale)과 실제 서빙(serving) 여력 사이의 긴장도 함께 부각됐다.

AI Twitter Recap

Anthropic 유출 “Mythos” 시스템과 새 Capybara 티어

Fortune이 Opus 상위 Anthropic 티어를 확인: 현재는 내려간 “Claude Mythos” 글이 @M1Astra에 의해 보존됐고, 여러 후속 게시물은 Fortune 보도를 근거로 Anthropic이 Capybara를 도입 중이라고 전했다. 이는 Opus보다 상위 티어이며 Claude Opus 4.6보다 “더 크고 더 지능적”이라고 묘사됐다. @scaling01, @Yuchenj_UW, @kimmonismus이 요약한 보도 내용에 따르면 Capybara는 **코딩, 학술적 추론(academic reasoning), 사이버보안(cybersecurity)**에서 점수가 크게 개선됐고, 비용·안전 우려로 출시(rollout)가 제한될 수 있다고 한다.
컴퓨트 집약(compute intensity)이 핵심 테마: 여러 게시물은 Anthropic이 스케일(scale)에 강하게 베팅하고 있다고 추정하며, 과거 Dario 발언을 근거로 ~10T 파라미터급 모델 가능성까지 거론하지만, 이는 코멘터리 밖에서 확인되진 않았다. 관련 논의는 @scaling01과 @Yuchenj_UW을 참고. 별도로 @FirstSquawk이 전한 Financial Times 보도는 Google이 Anthropic 데이터 센터에 자금 지원이 임박했다고 전하며, 최전선 경쟁이 알고리즘만이 아니라 전력과 자본지출(capex)에 의해 increasingly gated되고 있음을 강화한다.
프로덕션에서 인프라(infra) 스트레인이 노출: 유출은 Anthropic 가용성이 좋지 않았던 날과 겹쳤고, @dejavucoder, @iScienceLuvr 등에서 529s/elevated errors에 대한 불만이 광범위하게 나왔다. 실무 관점의 결론은 Anthropic이 공격적 스케일링 ambitions와 여전히 타이트한 서빙(serving) 한계 사이에서 균형을 잡고 있다는 점이다.

오픈 코딩 모델, 로컬 추론(local inference), GLM-5.1의 지속적 공세

GLM-5.1이 클로즈드 코딩 모델에 대한 압력을 확대: Zhipu는 @Zai_org로 GLM-5.1을 모든 코딩 플랜 사용자에게 제공한다고 발표했고, 에이전트 사용 문서도 @Zai_org에 공유했다. 커뮤니티 반응은 “중국의 오픈/세미오픈 고급 코딩 모델이 격차를 더 좁힌다”는 신호로 해석됐고, @kimmonismus, @XFreeze와 Arena 리더보드의 더 넓은 분석 @arena은 1년 전보다 open-vs-closed 격차가 훨씬 좁아졌다고 본다.
로컬 배포 경제성이 계속 개선: 트윗 전반에서 “로컬 모델이 이제 많은 워크플로에 충분히 좋다”는 테마가 반복된다. 예로 @TheGeorgePu는 비싼 TTS 구독을 로컬 Qwen 3.5 14B 구성으로 교체했고, @LottoLabs는 Hermes Agent와 함께 Qwen 27B의 경제성이 좋다고 보고했으며, @0xSero는 Qwen3.5-35B를 압축해 24GB VRAM에 풀 컨텍스트를 넣으면서 평균 성능 하락은 대략 1% 수준이라고 밝혔다.
양자화(quantization)와 캐시(cache) 작업이 핵심 촉진제: @iotcoi는 fused Triton KV write 경로와 decode attention을 포함한 TurboQuant vLLM 포크를 공개했으며, Qwen3.5-35B AWQ, 1M context, 4M KV cache를 목표로 한다. 한편 @bnjmn_marie는 RTX Pro 6000/B200/H100에서 Qwen3.5 27B 포맷을 벤치마크했고, RTX Pro 6000급 하드웨어에서는 INT4가 최적 추론(inference) 옵션으로 나타났다고 한다.
그러나 TurboQuant는 현재 적극적으로 분쟁 중: 가장 큰 연구 논쟁은 @gaoj0017과 더 긴 해명 @gaoj0017에서 제기됐는데, Google의 ICLR 2026 TurboQuant 논문이 이론과 벤치마킹에서 RaBitQ를 오기재(misrepresented)했으며 CPU-vs-GPU 비교가 불공정했다고 주장한다. 이는 TurboQuant의 엔지니어링 가치를 무효로 하진 않지만, 홍보된 비교 주장 일부에는 의문을 남긴다.

에이전트가 데모가 아니라 제품이 되는 중

Hermes Agent가 오픈 에이전트의 중심축으로 부상: 데이터셋에서 가장 일관된 제품 모멘텀은 Nous Research의 Hermes Agent다. @NousResearch는 Hugging Face를 1급 추론(inference) 프로바이더로 통합해 28개 큐레이션 모델과 더 많은 모델 접근을 제공했고, @ClementDelangue는 이를 메모리, 지속적 머신 접근, 모델 선택을 갖춘 오픈 에이전트로 가는 단계로 설명했다. @fancylancer3991, @PolackJack, @alexcovo_eth의 사용자 보고는 브라우저 자동화 비중이 큰 OpenClaw 같은 세팅보다 마찰이 낮고 지속성이 좋다고 강조한다.
에이전트 인프라가 트레이스(trace), 평가(evals), 디버깅 중심으로 성숙: Hugging Face의 @ClementDelangue는 오픈 에이전트 트레이스 데이터셋을 촉구했고, 후속 논의는 @yueqi_song의 Agent Data Protocol을 가리킨다. LangChain도 프로덕션 지향 자료를 묶음으로 공개했는데, agent eval readiness checklist @LangChain, IDE형 UI 가이드인 Deep Agents @LangChain_JS, 프롬프트 프로모션/롤백용 LangSmith Prompt Hub Environments @LangChain 등이 있다. 방향성은 “툴을 붙인 챗봇”에서 에이전트용 소프트웨어 라이프사이클 프리미티브로 이동 중이다.
에이전트 벤치마크가 실제 워크로드를 반영하기 시작: Artificial Analysis는 @ArtificialAnlys를 통해 AA-AgentPerf를 소개했는데, 실제 코딩 에이전트 트래젝터리, 100K+ sequence length, 그리고 가속기당/ kW당/ $당/ 랙당 동시 사용자 수로 표현되는 스루풋(throughput)에 초점을 맞춘다. 이는 합성 토큰 벤치마크보다 배포 관점에서 더 유용한 추상화로, 에이전트 중심 서빙을 위한 가속기 시스템 비교에 도움이 될 수 있다.

코딩 에이전트, Codex 플러그인, 멀티 에이전트 소프트웨어 워크플로

OpenAI의 Codex 생태계가 워크스페이스 네이티브 자동화로 이동: OpenAI 개발자들은 @OpenAIDevs에서 Codex plugins와 유스케이스 갤러리를 강조했고, Box는 Box 콘텐츠 위 워크플로 자동화를 위한 Codex 플러그인을 @Box로 출시했다. @theo, @nickbaumann_, @reach_vb의 반응은 중심이 프롬프트/응답에서 지속 워크스페이스, 이슈 시스템, 터미널, PR 플로, 플러그인으로 옮겨가고 있음을 시사한다.
승리하는 UX 패턴은 점점 “소프트웨어용 플릿 관리(fleet management)”: @VibeMarketer_는 칸반 카드, 분리된 worktree, 에이전트 소유 태스크, diff 기반 리뷰 같은 패턴을 포착했다. 관련 도구로는 브라우저 세션을 실시간 디버깅하는 새 agent-browser dashboard @ctatedev가 있고, Cognition/Devin 인접 코멘터리에서 멀티 에이전트 SWE 시스템에 대한 기대도 @JTLonsdale, @cognition 등으로 나타났다.
Composer 2와 장기(long-horizon) 코딩 평가가 기준을 올림: CursorBench 논의는 간접적이지만, @cwolferesearch는 벤치마크 강점으로 실제 코딩 세션, 불완전하게 정의된 프롬프트, 더 넓은 품질 차원, 태스크당 중간값 181 lines changed를 지적한다. 이는 정적인 장난감 태스크보다 건강한 벤치마크 디자인이며, 장기 에이전트 평가로의 전반적 전환과도 맞닿아 있다.

연구 및 시스템: 월드 모델, 로보틱스, 음성, 멀티모달 인프라

Meta가 실용적인 SAM 3.1 속도 개선을 출시: @AIatMeta는 SAM 3의 드롭인 업데이트인 SAM 3.1을 공개했으며, object multiplexing으로 단일 forward pass에서 최대 16개 오브젝트를 처리할 수 있다고 한다. Meta는 중간 크기 오브젝트 워크로드에서 H100 1장 기준 비디오 스루풋이 16 to 32 FPS로 대략 2배가 된다고 말해, 접근 가능한 비디오 세그멘테이션 파이프라인에 의미가 있다.
월드 모델과 로보틱스 모두 주목할 만한 오픈 릴리스: @LiorOnAI는 LeCun의 LeWorldModel 논문/레포를 소개했는데, SIGReg로 representational collapse를 수학적으로 불가능하게 만들어 48x faster planning과 ~200x fewer tokens를 주장한다. 로보틱스 데이터 측면에서는 @UnitreeRobotics가 실세계 휴머노이드 전신(whole-body) 텔레오퍼레이션 데이터셋 UnifoLM-WBT-Dataset을 오픈소스화했고, 지속 업데이트를 예고했다.
스피치/오픈 오디오가 가장 건강한 오픈 카테고리 중 하나: Cohere의 새 2B Apache-2.0 Transcribe 모델은 @victormustar에게서 높은 평가를 받았고, @vanstriendaniel은 A100에서 33 hours 오디오를 12 minutes에 전사했다고 보고했다. Mistral의 Voxtral TTS 논문은 @qtnx_가 언급했고, 브라우저/로컬 데모는 @sophiamyang과 @nickfrosst에서 공유됐다.
오픈 로보틱스 스택도 재현성(reproducibility)이 개선: AI2는 시뮬레이션에서만 학습된 오픈 로봇 조작(manipulation) 스위트 MolmoBot을 공개했으며, 코드·훈련 데이터·생성 파이프라인·평가를 @allen_ai로 제공한다. 이는 Unitree 데이터셋과 상호보완적이며, 최상위 연구소 밖에서도 재현 가능한 로보틱스 연구가 진전 중임을 시사한다.

참여도 상위 트윗

Anthropic/Capybara 유출: @Yuchenj_UW on Capybara는 Opus 상위 신규 티어와 보고된 벤치마크 개선을 요약하며, 기술 항목 중 가장 높은 참여를 얻었다.
Paul Conyngham의 AI 보조 반려견 암 치료: @sama는 ChatGPT 등 도구로 반려견 암에 대한 mRNA vaccine protocol 설계를 돕는 이야기를 공유했고, AI 기반 개인맞춤 의료에 대한 큰 토론으로 이어졌다.
TurboQuant 비판: @gaoj0017는 논문 방법론 분쟁으로는 이례적으로 높은 참여를 받았는데, 크게 홍보된 시스템 논문에 도전하는 내용이었기 때문으로 보인다.
GLM-5.1 출시: @Zai_org의 GLM-5.1 전면 제공 발표가 강하게 반응을 얻으며, 오픈 코딩 모델에 대한 지속 관심을 강화했다.
에이전트용 오픈 인프라: Codex plugins를 다룬 @OpenAIDevs와 Hermes Agent의 Hugging Face 통합을 다룬 @NousResearch는 개발자 관점에서 가장 명확한 제품/인프라 출시 소식이었다.

AI Reddit Recap

/r/LocalLlama + /r/localLLM — TurboQuant 및 RotorQuant 혁신

Google TurboQuant running Qwen Locally on MacAir (Activity: 433): 게시글은 Google의 TurboQuant 압축(compression) 방법을 llama.cpp에 적용해, 일반 MacBook Air(M4, 16 GB)에서도 20000 tokens 컨텍스트로 Qwen 3.5–9B를 실행한 실험을 다룬다. 오픈소스 앱 atomic.chat이 로컬 실행 리소스로 언급됐다. 댓글에서 Tatrions는 16GB 기본 MacBook Air에서 스왑 없이 20K context를 처리한 점이 인상적이라며, 클라우드 API에 의존하던 유스케이스가 로컬로 옮겨갈 수 있다고 봤고 이 압축 수준이 동일 모델의 표준 Q4 대비 품질을 얼마나 떨어뜨리는지 궁금해했다. M5_Maxxx는 구현이 Jan.ai에서 거의 변형되지 않은 형태라고 점검하며, 리네이밍·UI 조정·커스텀 llama.cpp 백엔드 포크 등과 함께 96개 커밋 대부분이 CI/build 파이프라인 변경에 치우쳐 있다고 지적했다. AppealThink1733는 TurboQuant가 llama.cpp에 어떻게 통합되는지(혹은 이미 지원되는지) 질문하며 접근성 확대에 관심을 보였다.
Skipping 90% of KV dequant work → +22.8% decode at 32K (llama.cpp, TurboQuant) (Activity: 744): 게시글은 llama.cpp의 TurboQuant KV 캐시(KV cache) 압축에서 attention 희소성(sparsity)을 이용해, 영향이 작은 위치의 dequantization을 건너뛰어 32K 컨텍스트에서 디코드(decode) 속도를 +22.8% 올리는 최적화를 소개한다. M5 Max에서 PPL 변화 없이 개선됐고, M2 Pro에서도 q8_0 KV 캐시 대비 ~0.45x에서 ~0.73x로 향상됐다고 한다. 구현과 벤치마크는 GitHub에, 자세한 설명은 writeup에 있다. 댓글에서 Specialist_Sun_7819는 커널 3줄 수준의 단순한 수정으로 큰 이득을 냈다는 점과 64K 같은 더 긴 컨텍스트로의 확장성을 궁금해했고, sean_hash는 Flash Attention류 최적화와의 유사성을 언급했으며, Pentium95는 이 최적화가 llama.cpp 본류에 들어가길 바란다고 했다.
TurboQuant in Llama.cpp benchmarks (Activity: 463): 작성자는 Apple Silicon(Metal)에서 llama.cpp에 TurboQuant를 적용했지만 TPS가 f16 대비 50% 낮았고, CUDA 머신에서는 출력이 좋지 않아 셋업 오류 가능성을 언급한다. 로컬 소비자 하드웨어에서 큰 컨텍스트/모델을 돌리게 해주는 잠재력은 인정하면서 MLX/VLLM 등 관련 프로젝트 동향도 함께 거론한다. 댓글에서 Velocita84는 Kullback-Leibler Divergence(KLD) 같은 지표 부재를 지적했고, CornerLimits는 pp64보다 pp2048 같은 지표가 더 유의미하다고 했으며, DinoAmino는 TurboQuant가 정확도를 올리기보다 긴 컨텍스트를 “추가 정확도 손실 없이” 가능하게 하는 쪽의 이점이라고 정리했다.
RotorQuant: 10-19x faster alternative to TurboQuant via Clifford rotors (44x fewer params) (Activity: 652): RotorQuant는 Clifford Algebra를 활용한 벡터 양자화(vector quantization)로 TurboQuant 대비 10-19x 속도와 44x 적은 파라미터를 주장한다. d=128에서 d×d 랜덤 직교행렬을 Clifford rotors로 대체해 16,384 FMAs를 약 100 FMAs로 줄였고, 코사인 유사도는 TurboQuant 0.991 대비 0.990 수준이라고 한다. fused CUDA 커널과 Metal shader로 RTX PRO 4000/Apple M4에서 성능을 강조하며, 합성 랜덤 벡터에서는 MSE가 더 크지만 QJL 보정으로 실제 모델 attention 충실도는 유지된다고 한다. GitHub Paper 댓글에서 Juan_Valadez는 TurboQuant의 전역 랜덤 회전(Haar)이 에너지 분산에 유리한 반면 RotorQuant의 3D 블록 믹싱은 이를 재현하기 어려워 최악(one-hot) 벡터에서 저비트 양자화 품질이 나빠질 수 있다고 했고, Dany0는 그래픽스/QuiP류와의 연관성을 언급하며 잠재력을 인정했으며, sean_hash는 Clifford 대수의 뜻밖의 적용을 흥미로운 교차영감 사례로 봤다.

/r/LocalLlama + /r/localLLM — GLM-5.1 및 코딩 모델 비교

Glm 5.1 is out (Activity: 1127): 이미지에는 Z.ai의 GLM-5.1 출시가 안내되며, 코딩 평가 점수가 GLM-5의 35.4에서 GLM-5.1의 45.3으로 상승했고 Claude Opus 4.6의 47.9에는 못 미치지만 격차가 줄었다는 비교가 제시된다. 댓글에서 power97992는 DeepSpeed v4 출시 지연을 Ascend 하드웨어 훈련 이슈로 추정했고, zb-mrx는 GLM 5 대비 GLM 5.1의 롤아웃이 더 매끄러워졌다고 했으며, jacek2023는 로컬 구동이 72GB VRAM 한계 등 하드웨어 제약을 받는다는 점을 언급했다.

/r/LocalLlama + /r/localLLM — 로컬 LLM 하드웨어 구성/비교

Dual DGX Sparks vs Mac Studio M3 Ultra 512GB: Running Qwen3.5 397B locally on both. Here’s what I found. (Activity: 819): 작성자는 Qwen3.5 397B를 로컬로 돌리며 Mac Studio M3 Ultra 512GB( MLX 6 bit quantization)와 dual DGX Spark( INT4 AutoRound quantization)를 비교한다. Mac Studio는 30 to 40 tok/s와 ~800 GB/s 대역폭을 보였지만 프리필(prefill)이 느리고 툴 호출에 커스텀 async proxy가 필요했다. Spark는 CUDA tensor core로 프리필·배치 임베딩이 빠르지만 셋업 복잡성, 노드당 ~273 GB/s 메모리 대역폭, 안정성 이슈가 언급된다. 각 세팅 비용은 대략 $10K이며, $2K/month API 지출 대비 10개월 손익분기(break-even) 추정도 제시됐다. 댓글에서 Repoman444는 Nvidia DGX 지원 품질을 문제 삼았고, sp4_dayz는 Qwen3.5 397B가 Claude/Opus에 비해 약간 뒤처지지만 가깝다고 했으며, Gringe8은 프롬프트 처리 속도가 비교에 포함됐는지 질문했다.
If you had ~10k to spend on local LLM hardware right now, what would you actually build? (Activity: 201): 예산 ~$10k로 로컬 LLM 하드웨어를 구성해 최소 30B(가능하면 70B) 모델을 프라이버시 중심 워크플로/툴에서 돌리고 싶다는 질문이다. 논의는 GPU 선택(예: RTX 4090 성능 vs 중고 A6000/A40의 VRAM), **Mac Studio (M3 Ultra)**의 통합 메모리 성능, CPU/RAM/스토리지 균형으로 이어진다. 댓글에서 Blackdragon1400는 256GB 이상의 VRAM/통합 메모리 권장을 강조하며 2x DGX Sparks로 Qwen3.5-122b-Int4-Autoround를 ~40t/s로 구동할 수 있다고 주장했고, MatthiasWM은 6월 개발자 이벤트에서의 M5 Ultra 가능성을 들어 큰 지출을 미루자고 했으며, Blackdragon1400는 “그냥 겨우 들어맞는” 양자화 모델에 타협하지 말고 메모리를 우선하라고 조언했다.

Less Technical Subreddits

대상 서브레딧: /r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

AI Discord Recap

AINews

접근 종료 공지: Discord가 오늘 접근을 차단해 더 이상 이 형태로는 되돌리지 않으며, 곧 새 AINews를 출시할 예정이라고 밝혔다. 끝까지 읽어줘서 고맙고, 좋은 여정이었다고 덧붙였다.

오늘의 요약